行业分析报告 您所在的位置:网站首页 clusterautoscaler eks hpa 行业分析报告

行业分析报告

#行业分析报告| 来源: 网络整理| 查看: 265

华大:2022年DNA存储蓝皮书(121页).pdf

基因慧 5版权所有侵权必究DNA 存储蓝皮书目录CONTENTS一、需求:数据存储现状及 DNA 存储优势151.1 大数据时代下数据存储现状及局限 161.2 DNA 存储的原理及优势 211.3 DNA 政策支持与重点研发计划 301.4 国内外研发进展 331.5 市场容量和投融资 38二、技术:DNA 存储的技术流程与进展432.1 DNA 存储系统简介 442.2 信息编码(比特信息转换为 DNA 序列)462.3 DNA 合成(存储信息写入)562.4 DNA 封装(存储信息保存)772.5 DNA 测序(存储信息读出)86三、应用:DNA 存储应用场景963.1 概述 973.2 大数据存储 983.3 新型数据加密 1033.4 分子追踪系统 1053.5 基于 DNA 计算的分子诊断 1073.6 其他 108四、展望:产业发展机遇及关键点1104.1 DNA 存储产业发展的机遇 1114.2 未满足需求与关键问题 1144.3 发展方向 119基因慧 6版权所有侵权必究DNA 存储蓝皮书主创团队主编简介沈玥,博士,研究员,深圳华大生命科学研究院合成生物学首席科学家,“广东特支计划”科技创新青年拔尖人才,2022 年深圳优秀青年科学基金项目获得者,国家重点研发计划“生物与信息融合(BT 与 IT 融合)”重点专项项目首席科学家,“深圳青年五四奖章”和“2021 年深圳市科学技术青年科技奖”获得者,ISO/IEC 生物数字融合工作组专家。长期从事合成生物学技术以及生物与信息技术融合技术的应用研究。主持/参加国家省市基金项目 12 项。发表论文 36 篇,其中以第一作者或通讯作者发表文章 16 篇。申请发明专利 35 项,软件著作权 14 项,编制国家标准、地方及企业标准 9 项。成果获得“2017 年中国科学十大进展”与“2019 年度天津市自然科学特等奖”、“2021 年深圳市科学技术奖自然科学类一等奖”荣誉。汪亮,基因慧创始人&主编,专注基因及生命健康产业研究,参与国家发改委战略性新兴产业发展展望 白皮书执笔,受聘中国遗传学会产业促进会委员、广东省精准医学应用学会政策研究应用分会常委、哈尔滨工业大学(深圳)特聘教师等;毕业于哈尔滨医科大学生物信息专业,先后服务于国家人类基因组南方中心、华大和药明康德等;带领基因慧建立首个数字生命健康产业信息平台 YourMap,连续五年发布年度基因行业蓝皮书以及单细胞、大数据、肿瘤精准医疗、DNA 存储等行研报告,组织多家行业机构发布多项行业共识和团体标准。陈芳,副研究员,深圳华大智造科技股份有限公司研发体系副总裁,从事高通量测序相关应用及产品研发多年,专注母婴健康领域、测序仪研发等,参与撰写国内首个高通量基因测序仪行业标准、研制多个国家标准品,参与首例高通量测序技术应用于临床产品的 NMPA 资质;持续拓展测序技术在司法、海关、疾控、DNA 存储等领域的应用示范。近 5 年发表文章 22 篇、授权专利 7 项,参与完成国家及省级课题 6 项。策划机构简介基因慧专注数字生命健康产业知识服务,创立于 2016 年,创始团队深耕行业一线十余年,秉持“使连接产生价值,用数据看见未来”的理念,基于产业智库和专业内容,提供产业规划、行研咨询、科技推广等服务。连续五年发布行业蓝皮书,被国家及省市级产业报告收录,组织多家单位发布行业共识和团体标准,推动生命科技普惠和产业融合发展。基因慧是国家发改委战略性新兴产业发展展望白皮书执笔单位、中国遗传学会产业促进会委员、全国卫生产业企业管理协会精准医疗分会理事、广东省精准医学应用学会遗传病分会常委。基因慧 7版权所有侵权必究DNA 存储蓝皮书序言纳米尺度的 DNA 是人与自然和谐共处的分子桥梁欧阳颀中国科学院院士、北京大学定量生物学中心副主任为了在复杂多变的环境中谋求生机,人类的祖先以木头、石器和骨骼制造工具,同时也用这些媒介记录信息。这是人类历史的开端。随着信息储存与传播的方式方法不断更替,人类文明也发生了翻天覆地的变化。进入现代社会,计算机科学的飞速发展带来了信息技术革命;而信息时代的到来颠覆了地球村的图景。在磁、光、电等介质中存储、并在互联网中飞驰的海量数字信息在短短几十年内触发了科学、技术和文化的爆炸式进展。信息是随机序列中涌现的秩序。信息技术的飞速增长,背后是人类对物理世界和对内心情感的好奇心和不懈探索。文明以语言和文字为载体代代相传,在不断的碰撞、冲击、融合中孕育了伟大的科技、艺术以及信息自身形式的更迭。在 21 世纪的今天,信息把握着全球政治经济的脉搏。信息世界的进化复杂性,不亚于生命进化的广博浩瀚。我们现在很难说,DNA 存储究竟是生物技术对信息技术的革新,还是信息技术对生物技术的开拓。我们把数字信息写在 DNA 中,把人类的知识、文化和艺术瑰宝镌刻在生命的鬼斧神工之中,使思想不朽。而我们利用 DNA 制造的分子信息系统也将成为一扇窗户。透过它,我们得以更精确、更即时的窥探生命的底层逻辑,甚至操控微观生物世界。纳米尺度的 DNA 是人类与自然和谐共处的一道分子桥梁,DNA 存储领域的研究者正在为它垒起一块块稳固的基石。基因慧 8版权所有侵权必究DNA 存储蓝皮书DNA 存储是生物技术与信息技术融合的典范元英进中国科学院院士、天津大学副校长信息存储是人类文明发展的必然需求。周易系辞有云:“上古结绳而治,后世圣人易以书契”。从结绳记事,到录于文书,社会的发展离不开信息记录。小到个人感怀、生活收支,大到国书布告、历史决议,这些信息都是宝贵的财富,承载着人类文明发展的历史和未来。信息存储就成为了不同时期人类的共同需求。数据存储方式的变化史,是人类文明发展史的缩影。从龟甲石刻、竹简纸张,到如今的磁光电存储,人类物质和精神文明得到了极大发展,人均拥有了超过 1014 比特的信息量。在这个拥抱大数据的时代,数据规模爆炸增长,现有存储介质逼近密度极限,人类不断开发新的数据存储方式,DNA 存储就是其中最具潜力的技术之一。DNA 存储核心优势是存储密度高、存储时间长且维护成本低。美国半导体合成生物学路线图中提到,DNA 存储的密度潜力是硬盘、磁带等传统介质的 1 千万倍。考古学家也已经证明,DNA 作为天然的生物遗传信息载体,在特定的自然状态下可以保存几百万到几亿年。这些特质使得 DNA存储具备了海量数据长期保存的颠覆性优势。DNA 存储的发展将促进 DNA 合成和测序技术的迭代升级。诚然,当前 DNA 存储的读写成本依然高昂,但是随着 DNA 合成新技术持续进步,测序走向 Pb 级规模,其读写成本正持续下降。在数据存储需求的驱动下,DNA 合成和测序新技术将快速成熟和发展,带动产业升级,为低成本 DNA存储赋能,为生命科学研究助力。总而言之,DNA 存储是生物技术与信息技术融合的典范。DNA 作为从古至今承载生命信息的介质,在生物技术与信息技术之间架起了一座桥梁。DNA 存储将是人类师法自然,造福社会的又一典型。我希望更多不同学科的青年人,响应时代的召唤,进入这个充满潜力的交叉融合领域,为人类文明的发展贡献力量。基因慧 9版权所有侵权必究DNA 存储蓝皮书DNA 存储有望突破大数据存储的瓶颈杨焕明中国科学院院士、华大集团理事长再过一年,就是人类基因组计划完成图发布 20 周年、DNA 双螺旋结构发现 70 周年。在这个阶段,测序技术成熟服务数以千万孕妇产前筛查、数以亿级的核酸检测后,连同 DNA 合成技术,推动 DNA 存储研发和应用。它是 BT(生物技术)和 IT(信息技术)的完美融合,将基因科技从医学拓展到工业以及更广泛的应用市场,造福大众。从这个角度上,基因慧策划的DNA 存储蓝皮书非常有意义。多年前我参与香山科学会议,和众多同仁探讨 DNA 存储技术。近十年来 DNA 存储技术发展迅速。一方面,DNA 测序技术快速普惠,DNA 合成的成本下降了三个数量级及以上;另一方面,微米级芯片对合成的控制达到高通量的目的,包括 George Church、Goldman 和深圳华大生命科学研究院团队都开发出不同策略的 DNA 存储编码算法。未来如果进一步降低成本,提高编码的适配性和鲁棒性,有望突破目前大数据存储的瓶颈,赋能人工智能和产业数字化等。同志们,我们正进入生物技术大放异彩的时代。生命是数字的,DNA 测序和合成正以前所未有的速度和深度拓展或改变我们对生命的认知,服务医学、农学、工业和大数据等,这是时代赋予我们的使命,我们生于斯,应加强研产学资连接和协作,不辜负时代,勇立潮头。基因慧 10版权所有侵权必究DNA 存储蓝皮书探寻变革性的存储材料抱有“功成必定有我”的历史担当樊春海中国科学院院士、上海交通大学转化医学研究院执行院长自从诞生以来,人类从未停止过对生命奥秘的探寻。1953 年,沃森、克里克等人共同发现了DNA 双螺旋结构这被认为是 20 世纪生命科学领域最重大的发现之一。这一简洁而又优美的结构的发现,为我们从分子层面揭示了生命遗传过程的本质,引领了诸如中心法则、核酶、基因编辑等一系列从核酸结构、功能到信息调控的诺贝尔奖成果和重大科学发现,并带动了整个生物技术领域的发展。当前,随着互联网、人工智能、5G 通讯等技术的发展和普及,人类已经大步迈进信息和大数据时代。一方面,高效、快速的信息交互使得人类的生活发生了天翻地覆的变化,由此产生了海量的数据;另一方面,数据的价值日益凸显,已经上升到了生产要素的高度。如何在未来存储海量的数据量将是人类所共同面临的重大问题,也代表了国家重大需求。DNA 分子作为一种亿万年进化产生的超高密度、超稳定的数据存储介质,ATGC 这四个碱基的不同排列组合构成了多姿多彩的生物学世界背后的规则。经过几代科学家的不懈努力,特别是人类基因组计划等大科学计划的推动,现在人类已经从认识 DNA 发展到了人为设计、合成和读取DNA。曾经的遗传密码已经逐渐成为我们手中可以操控和应用的纳米尺度分子材料。在这个意义上,我们撷取自然进化的智慧,将 DNA 从记录生命遗传信息的分子转化为记录人类文明信息的介质,已经成为可能,然而挑战巨大。人类社会正处在一个高度变革的转折时期,我们正在逐步从真实世界转变为真实与虚拟世界(如元宇宙)共存的二元世界。探寻变革性的存储材料,突破海量数据存储瓶颈,已成为时代的需求和国家战略所在。我们应心存“功成不必在我”的精神,抱有“功成必定有我”的历史担当,聚集智慧与心力,努力将人类带向 IT-BT(信息技术-生物技术)交融的应许之地!基因慧 11版权所有侵权必究DNA 存储蓝皮书专家寄语DNA 存储看起来既遥远又现实。随着研究的不断突破,从原理验证到编码优化,我们已经看到 DNA 用于数据存储的远大前景。但合成成本、信息失真、兼容性等问题让应用显得不切实际。但是就在不久之前,当人类基因组刚开始的时候,我们还对着高达三十亿的测序成本望洋兴叹,可今天成本降低了数千万倍,变得人人可及,精度也不断完善。所以我们有理由相信,DNA 数据存储,在不太遥远的未来,必然进入各行各业、千家万户。徐讯深圳华大生命科学研究院院长我是从 90 年代以科学家身份下海创业的。从创业之初,我就确定了 DNA 化学合成作为公司的主营业务。因为我知道,DNA 合成所产生的引物是大部分生命科学实验应用的食粮。在当时的大环境下,连普通的引物和测序都要依赖进口高价产品。而我本人和公司对整个行业最大的贡献我认为就是让中国的科研工作者都能“吃得起”,“吃得饱”,但我们现在要进入一个新的阶段,就是还要让大家“吃得好”,要建立核心技术实力,拿出更高质量、具有自主知识产权的好产品。王启松生工生物董事长当今世界正处于前所未有的信息爆炸时代,人工智能、5G、无人驾驶汽车等应用无时无刻地产生海量数据,预计到 2025 年,全球数据量将达到 175ZB。数据爆发式的指数增长速度,已经超过了当前 IT 存储技术的承载力。DNA 存储作为一项着眼于未来的具有划时代意义存储技术,正在揭开神秘的面纱,从实验室走向大众视野。国家基因库愿与业界一起致力于 DNA 存储研发和应用工作,共同推进生命科学和 IT 科技的融合,期待新的突破,共创美好未来!曾文君深圳国家基因库生物信息数据库主任基因慧 12版权所有侵权必究DNA 存储蓝皮书DNA 存储是通过合成生物学的方式把 0、1 转换成碱基,再通过测序解码进行读取;具有容量大、保存时间长等显著优势。中国、美国和欧洲已经把 DNA 存储列入战略研究方向。2020年 Twist Bioscience、Illumina、Western Digital、微软研究院等公司和机构联合成立 DNA 数据存储联盟。由此可见,国家和产业头部公司的重视和着力都将推动技术发展。联川致力于探索基因技术在各类场景的应用并最终实现产业化,希望与行业内众多优秀企业携手推进 DNA 存储的发展!郎秋蕾联川生物CEO数字信息时代的到来促使大家开始寻找空间更大、运行更稳定、读取更便捷的存储方式。随着人工 DNA 合成技术的不断发展,DNA 存储凭借存储密度高、存储时间长、占地面积小、维护成本低等优点,成为解决未来数据存储危机的潜力介质之一,更有望彻底颠覆现今数据存储模式。擎科生物始终致力基因合成领域的技术开发与落地,公司将充分发挥自身科技创新优势,与行业内众多优秀企业共同开创 DNA 存储新时代。马石金擎科生物董事长海量分布式存储业务需要极低的存储成本来应对快速增长的数据规模,DNA 存储技术具有存储密度高、电磁干扰少、数据跳变概率低等优势,具有成为极低成本的存储介质的潜力。林楠腾讯云存储高级产品经理基因慧 13版权所有侵权必究DNA 存储蓝皮书报告说明报告宗旨本报告为基因慧联合基因科技和大数据存储专家、代表机构及一线人士撰写而成,面向专业人士免费传播,推动基因科技和大数据存储的科学普及、技术推广、转化应用及创新创业。面向对象对基因科技和大数据存储有一定基础和兴趣的政策制定者、科研学者、创业者、投资者、教育工作者、产业从业者等专业人士。内容范围内容上,本报告围绕基因科技和大数据存储的宏观环境、技术工艺、应用场景和产业发展来展开;时间上,本报告归纳近年的技术及产业动态信息、专家观点和研究思考,以 2020-2022 年为主,展望未来;地理维度上,本报告以全球环境为背景和参考,重点着墨中国大陆地区的市场,旨在传播和启发先进技术的产业化。更多需求基于“使连接产生价值,用数据看见未来”的理念,我们尽可能严谨、客观收集信息和归纳分析;信息源于基因慧旗下 GeneMail 资讯、大咖论健、产业信息大数据平台YourMap、专家咨询、市场调研及联合撰写团队提供的信息等合规素材。但由于行业特殊性和信息披露的时效性等因素,内容难免存在不足,信息颗粒度可能无法满足所有场景。如有错漏,欢迎反馈指正;如需更大范围或更细颗粒度的信息,欢迎联络我们定制行研报告。基因慧 14版权所有侵权必究DNA 存储蓝皮书法律声明本报告为深圳基因界科技咨询有限公司(以下简称“基因慧”)联合合作方的学术研究成果,旨在推动相关的科技普及、技术推广、转化应用和创新创业。本报告版权归基因慧及合作机构所有。未经基因慧及合作机构的书面授权,任何机构和个人不得以任何形式使用、复制和传播本报告的任何部分用于商业目的。学术研究引用时请注明来自基因慧;侵权必究。基因慧未受聘于任何企业从事此报告研究。本报告不得解释为基因慧专业的医疗决策、产业咨询及投融资等意见,亦不得解释为基因慧对个别产品、机构评价的观点。读者接收本报告即视为同意以下声明:任何机构或个人在引用本报告信息时,须对本报告的数据和结果进行独立调查和判断;由于信息时效性,基因慧对本报告所含信息的准确性或完整性不作任何担保或保证,且明确声明对任何机构和个人不承担基于本报告决策而产生的任何责任。一、需求:数据存储现状及 DNA 存储优势基因慧 DNA 存储蓝皮书16版权所有侵权必究1.1 大数据时代下数据存储现状及局限医疗大健康、生物工程、“工业 4.0”等领域的发展带来大数据的繁荣。一方面,互联网、物联网、医疗健康、生物工程等加速生产大规模数据,5G 数字技术大幅加快数据传输,人工智能赋能数据挖掘;另一方面,目前的存储介质远远无法满足大数据存储的需求。图 1:全球数据供需量(ZB)消耗量 有效存储量050100150200250300350400450500550600650700750800850900950100010502015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026 2027 2028 2029 2030 2031 2032 2033 2034 2035信息来源:IDC 白皮书:世界的数字化从边缘到核心,基因慧制图据 2021 年 IDC 预测,全球数据量 2020 年至 2025 年的复合增长率为 23%,到 2025 年将达到180 泽字节(1 泽字节=1024 艾字节,1 艾字节相当于一部 36000 年才能播完的高清视频),预计2035 年数据量将突破 1000 泽字节。根据全球最大的硬盘制造商希捷(Seagate)的观点:2025 年预计有 98.29%的数据由于存储技术和存储规模而无法保存。总体来说,大数据存储的供应赶不上大数据的生产,主要包括以下几个方面的需求未得到满足:基因慧 一、需求:数据存储现状及 DNA 存储优势17版权所有侵权必究图 2:数据存储的未满足需求缺乏信息密度更高的存储介质数据存储能源利用率低,消耗能源偏高存储介质的使用年限较短,抗干扰弱大容量存储设备的便携性不足加剧土地资源、能耗的使用增加数据的迁移和维护成本数据安全隐患加剧未满足需求引发的问题信息来源:基因慧整理&制图如上图所示,市场缺乏密度更高的存储介质加剧了土地资源的过度使用与能耗过大;存储介质较短的使用年限增加了数据迁移和维护成本;大型存储设备迁移性不足增添了数据安全隐患。低成本、高密度、长久保留、低能耗,将是未来数据存储的发展方向。这是大数据时代下数据存储的需求,同时也是 DNA 存储技术的核心价值。在探讨 DNA 存储技术之前,我们先来了解数据存储的发展历程、当前现状和具体的局限性。1.1.1 数据存储的发展历程回顾数据存储的发展历程,从最早的结绳记事、甲骨文、纸到硬盘、闪存,其核心特点,如存储密度、容量、使用年限在不断提升,也更加便携、稳定和安全。基因慧 DNA 存储蓝皮书18版权所有侵权必究图 3:数据存储的发展历程文字发明前东汉时期1846 年1928 年1932 年1952 年1956 年1965 年1971 年1984 年2003 年约公元前17世纪-公元前 11 世纪结绳记事纸穿孔纸带录音磁带磁鼓存储器磁带硬盘CD/DVD软盘闪存DNA 存储甲骨文信息来源:基因慧整理&制图在数据存储发展的长河中,1846 年的穿孔纸带第一次把数据转变成二进制信息,奠定了早期计算机的输入系统;1952 年研发的磁带成功延续至今,因其极高的存储密度成为数据冷存储的主要媒介之一;而 1984 年的闪存第一次将非易失性的特点带入存储,增强了数据的安全性。但自闪存媒介研发至今,近 30 年未有新型存储研发。直至 2019 年,微软和华盛顿大学发表了 DNA 存储的原型实验室装置,预计需要 5-10 年才能投入大规模使用。1.1.2 存储介质的现状尽管数据存储介质多种多样,但市面上主流的存储介质可以根据存储原理分为三大类,分别是光盘、磁性存储(硬盘、磁带等)和半导体存储(闪存等)。本蓝皮书讨论的 DNA 存储归类为新兴存储。存储介质的核心指标包括读写速度、数据保存年限、消耗电量(能耗)、数据密度等。作为新兴存储的 DNA 存储读写速度小于 100 比特/微秒,数据保存年限可长达 100 年,消耗的电量小于 10-10瓦特/吉字节,细菌体内数据密度约 1019比特/立方厘米。基因慧 一、需求:数据存储现状及 DNA 存储优势19版权所有侵权必究图 4:数据存储的分类100年30年0.02-0.05瓦特/吉字节1014 比特/立方厘米磁带5000-28000比特/微秒10年0.01-0.04瓦特/吉字节1016 比特/立方厘米闪存半导体存储 1600比特/微秒10年0.04瓦特/吉字节1013 比特/立方厘米硬盘磁性存储读写速度消耗电量数据密度保存年限信息来源:Extance,A.How DNA could store all the world s data.2016,基因慧制图目前市场上常见的存储介质包括磁带、硬盘、闪存等,其中硬盘和闪存占据消费级和企业级产品,而磁带存储多应用于数据冷存储;读写速度最快的是闪存,最高可达 28000 比特/微秒;保存年限最长的是磁带,可超过 30 年;能耗最低的是闪存,最低可达 0.01 瓦特/吉字节;与现有介质相比,DNA 存储技术的优势是使用寿命最长,可达百年,数据密度最大,可达 1019比特/立方厘米,但也存在一定劣势需要不断研发和优化,包括信息读写速度慢、合成和测序成本高。表 1:存储介质对比磁带硬盘闪存DNA 存储优点读写便捷、成本低、使用寿命长、能耗低、安全性高、稳定、价格低、可支持断电存储存储容量大、价格低、存储成本低读写便捷、耗电量低、温度影响小、耐用性高存储密度高、耐用性高、使用寿命长、能源消耗低缺点访问速度低耗电高、运行温度高、噪声偏大价格偏高、容量偏低合成和测序成本高、信息读写慢、无法高效对接现有信息系统应用场景数据冷存储消费级和企业级产品消费级产品为主大数据存储、新型数据加密、分子追踪系统、分子诊断生产厂商IBM、惠普等希捷、西部数据、东芝等三星、东芝、海力士等Twist Bioscience、微软、华大等信息来源:基因慧整理基因慧 DNA 存储蓝皮书20版权所有侵权必究1.1.3 数据存储的局限基于磁带、硬盘、闪存等存储介质与 DNA 存储的对比,现有存储介质在存储密度、使用寿命、能源消耗上仍存在着一定的局限。现有存储介质的存储密度偏低。以磁带存储为例,目前存储密度能达到 1014比特/立方厘米,而 HDD硬盘和闪存不及磁带存储,例如 1 泽字节的数据量,即使是磁带存储,也需要 1011立方毫米。存储密度的不足将导致高运营成本和建设成本。在能源消耗上,1 泽字节数据量需要约 1000 个艾字节级数据中心,而每个艾字节级数据中心需要约 7 万平方米的占地面积,200 兆瓦/年的功耗,总存储成本高达 10 亿美元。不仅占地面积、存储体积面临巨大的挑战,能耗、维护成本将是更严峻的挑战。使用寿命也是局限数据存储发展的关键因素。在现有存储介质中,光盘的使用寿命为10-15年,HDD 存储和闪存的使用寿命为 5-10 年,磁带存储的使用寿命为 15-30 年;数据存储系统需要定期清除损坏的数据,并更换故障单元,低使用寿命会导致泽字节数据量的存储需要极高的维护成本,因此市场需要更加稳定的存储介质来支撑快速增长的数据量。在能源消耗方面,磁带存储的能源消耗相比 HDD 存储和闪存要小。磁带存储可以通过离线存储数据,但磁带主要依赖于稀土金属。尽管全球稀土储量丰富,但因为过度开采和跨国进出口贸易,稀土资源储量正快速下降,磁带存储的解决方案并不能长久。综上所述,为了满足海量数据的存储的新兴需求,市场亟需变革式的新兴存储介质。特别是在存储密度、使用寿命、能源消耗、数据安全等因素上进行大幅优化和提升。DNA 存储作为未来数据存储介质的解决方案之一。一方面,其存储密度是已知存储介质最高,理论可以实现达到的存储密度为 455 艾字节/克。另一方面,由于 DNA 的稳定性,来自 70 万年前的古代 DNA 仍然可以被测序,存储的时效性可见一斑。基因慧 一、需求:数据存储现状及 DNA 存储优势21版权所有侵权必究1.2 DNA 存储的原理及优势目前主流的 DNA 存储是基于 DNA 的四种碱基(A、G、C、T)来映射 0 和 1,通过信息编码来进行存储,这是一个数字信号到化学信号的过程。相对传统介质,DNA 存储基于分子流存储信息流,加上它的非周期性晶体等结构特点以及生物属性,因此 DNA 存储极其稳定且存储密度高。图 5:DNA 数据存储整体框架数据编码数据写入DNA 合成数据储存数据读取数据解码体外测序体内信息来源:滕越等,DNA 数据存储技术原理及其研究进展,生物化学与生物物理进展,2021DNA 存储的概念最早可追溯到 20 世纪 60 年代,美国著名科学家、控制论的创始人诺伯特维纳(Norbert Wiener)和苏联科学家米哈伊尔内曼(Mikhail Neiman)几乎同时独立提出利用 DNA可以存储数据的概念。表 2:DNA 存储的历史时间研发团队存储容量(MB)研发成果20 世纪 60 年代Wiener、Neiman遗传存储器的概念推出1988Joe Davis、哈佛大学0.000004将数字 0 和 1 映射到 DNA 的四个碱基1999奥地利电子音乐节0.00009编码来自 Genesis 的文本2003太平洋西北国家实验室0.0001“这是一个小世界”的部分内容基因慧 DNA 存储蓝皮书22版权所有侵权必究时间研发团队存储容量(MB)研发成果2005ATUM0.0001诗歌“Tomten”2009多伦多大学0.0002文本、音乐、图片2010J.Craig Venter 研究所0.0009合成基因组水印2012哈佛大学0.66书籍和 JavaScript2013欧洲生物信息学研究所0.74诗歌、演讲、论文2016哈佛大学、Technicolor22MPEG 格式压缩电影2017微软、华盛顿大学200世界人权宣言、音乐视频、种子数据库2018微软、华盛顿大学400未知2019 Catalog 公司16000存储 16GB 的维基百科数据信息来源:基因慧整理1.1.4 DNA 存储的步骤现有技术框架下,DNA存储主要由6个步骤构成,包括:编码、合成、保存、获取、测序、解码(部分 DNA 存储技术不涉及获取步骤)。1)二进制比特-DNA 碱基编码DNA 编码的方法众多。算法上包括固定规则的简单映射编码、Goldman 编码、Grass 编码、Blawat 编码、DNA 喷泉(DNA Fountain)编码、水印叠加编码等。其中还包括集成多种规则的华大 YYC 阴阳双编码系统与 Spider-Web 系统、中科碳元的“悟空”编码系统、联川生物研发的 DNA存储编码系统等。此外,针对 DNA 的生化-数字特性,可预计编码方法上还有较大的研究空间。此处,我们以 Goldman 编码为例说明 DNA 存储编码的基础原理,更多编码算法详可见第二章。基因慧 一、需求:数据存储现状及 DNA 存储优势23版权所有侵权必究图 6:DNA 存储的基础原理A T G A T C T C G T A ADNAmRNA00=A,01=T,10=G,11=CSynthesizeDefine a mapping:DATA:00 00 10 01 11AAGTCPolypeptideSerlleT A C T A G A G C A T TA U G A U C U C G U A AMetSTOP信息来源:Digitaltrend,基因慧整理2012 年,George Church 教授首次展示通过 DNA 来存储非遗传数据,使用经典的简单映射编码直接将 A、T、C、G 4 种碱基映射二进制数据,例如:将 00 映射给 A,将 01 映射给 T,将 10 映射给 G,将 11 映射给 C,基于以上编码,碱基序列“TGCAG”可编码数字串“0110110010”。上述映射规则是较为简单的一种,可以在确保编码的规则和效率下作多种变形,例如霍夫曼编码、DNA 喷泉编码。后续的编码算法引入了纠错算法,这对于 DNA 存储信息的准确性起到了关键作用。图 7:DNA 编码 ACCCCCCCCCAAAAAAGGTTTTTTTGGGGGGGTTA00121000110111 4 4701011101 1011111010 01 1110ACDBSimple TranscodingExample01011101TAGTC02210Previous NucleotideTernary DigitorBinaryGF FieldRule 1Rule 2RecombineResult Options:First three not sameLast two not sameOption 1Option 2Option 3Option 4DNABasesor One to two Two to one Sixteen to nineNot identicalNucleotide TripletMappingHuffman code(Eight to five/six)Forward error correction(Eight to five)0101010101ATCGATCG0123447.X Y ZGGGCGATTC信息来源:Ping et.al.,Gigascience,2018基因慧 DNA 存储蓝皮书24版权所有侵权必究除了以上映射的编码方法,另一种方法是使每个短寡核苷酸代表一个编码数据单元或符号。通过碱基合成技术预先合成短寡核苷酸元件库,基于碱基互补配对原则,连接短寡核苷酸以产生长寡核苷酸或形成长DNA双链,更长的DNA序列意味着通过更大的数据有效载荷来分摊组装的成本,从而在面对较大数据量时降低成本。2)DNA 合成作为存储介质,DNA 的合成长度决定存储信息碱基利用率。目前,主流的 DNA 合成方法包括化学合成和生物合成两大类。其中,化学合成技术相对成熟,以上世纪八十年代发展的固相亚磷酰胺三酯法为代表。目前基于化学合成 DNA 的新兴技术和工具还在陆续面世,例如电化学芯片合成法、微流体系统、数字光刻技术和基于分选原理的高通量合成技术等,特别是微阵列(芯片)DNA 合成可实现高通量。基于微软和华盛顿大学的研究成果,目前合成密度能达到 2500 万/每平方厘米,并且有两个数量级的增长潜力。以酶促合成为代表的生物合成技术开始于 2010 年中期,目前相关技术尚未成熟,未进入商业市场,未来的发展前景较大。酶促合成技术可只使用水性试剂,产生更少的副产品,因此更具有可持续性;其次,酶促合成反应可以通过加速合成实现更高的通量并增加聚合物的长度,从而提高数据密度,降低存储成本。3)DNA 保存表 3:DNA 介质的储存方法方法液状干粉封装DNA 与碱性盐混合干燥非天然核酸体内存储保存时间33 年36 年527 年109 年-处理难度简单简单困难简单简单简单温度-20/-80/液氮保存-15常温常温-80信息来源:参考郜艳敏等,DNA 信息存储中关键生化方法的研究.合成生物学,2021,基因慧整理基因慧 一、需求:数据存储现状及 DNA 存储优势25版权所有侵权必究DNA 介质的长期稳定储存是实现冷数据长期存储的关键,将直接影响基于 DNA 的海量数据存储硬件设备系统的实现。现有 DNA 保存包括三种方式:宏观级保存 分子级保存 体内保存其中,宏观级保存可以包括将DNA介质以液状、干粉、封装、DNA与碱性盐混合干燥等方式保存。DNA 分子的物理保存需要考虑容器的成本、容器存储的数据量、封装成本和检索的自动化等因素。考虑到 DNA 的衰变机制,DNA 会受到紫外线照射、水、微生物、氧气等作用降解,而水分子是最主要的因素,因此,DNA 介质的长期储存尤其要隔绝水和氧气。DNA的分子保存,是将单个DNA分子嵌入基质材料中,旨在防止水和氧气接触到单个 DNA 分子,玻璃等无机材料是目前最适合的材料,但具有较大的加工难度,并且会增加后期的 DNA 分子读取难度。相比之下,DNA 体内储存具有较大优势,如低成本精准复制和长久稳定保存,是目前信息存储的最具潜力的方式。此外,细胞内精密的基因组修复等分子机制可以实现 DNA 介质的耐久性和稳定性。但体内存储也存在一定的不足,由于细胞接受外源 DNA 物质效率等问题,造成体内存储密度低于体外存储,且体内储存更加适合长 DNA 片段,具有较高的制造成本。此外大量的人工核酸序列在细胞内保存的生物风险也是一个需要考虑的关键因素。4)DNA 测序DNA 测序是对存储在 DNA 中的数据进行读取的步骤,主要是测定编码数据的 DNA 分子中碱基(AGCT)的排列顺序。基因慧 DNA 存储蓝皮书26版权所有侵权必究图 8:测序技术的发展历史Sanger 发明 DNA 双脱氧链终止法测序1977第一次测定得到人类线粒体基因组序列1981人类基因组计划启动1990第一次得到完整的细菌基因组:嗜血流感菌1995第一次得到完整的真核生物基因组:酿酒酵母 1996人类基因组计划完成 2001Roche 发布高通量测序仪 454 GS202005Illumina 发布高通量测序仪 Genetic Analyzer 22007MetaHIT计划启动研究人类微生物组计划2008PacBio 发布单分子测序仪 PacBio RS2011ONT 发布纳米孔测序平台:MiniON2014华大发布了新一代桌面型测序系统 BGISEQ-5002015华大智造发布全球最高日通量的测序系统 DNBSEQ-T72018华大智造发布入门级测序系统 DNBSEQ-E520212019人类微生物组计划第二阶段(HMP)完成信息来源:基因慧整理&制图自 1977 年 Sanger 发明双脱氧链终止法,测序技术开始了高速的发展。随后在 1998 年,随着毛细管电泳仪的出现,科学家们实现了测序技术的通量化和自动化。这标志着一代测序技术的成熟和基因组学时代的到来。新一代测序(NGS,Next Generation Sequencing)于 2005 年出现,这一技术实现了从几十万条到几百万条的核酸分子的大规模并行测序。2011 年,基于长片段和直接测序的单分子测序技术开始商业化。目前,DNA 存储相关研究的测序工作大多在 Illumina 平台、MGI 平台以及单分子纳米孔 ONT 平台实现。基因慧 一、需求:数据存储现状及 DNA 存储优势27版权所有侵权必究表 4:不同测序技术的比较分类代表企业测序原理优点缺点Sanger测序仪Thermo FisherSanger 测序法准确率高且读长较长,能很好地处理重复序列和多聚序列通量小且成本较高高通量测序仪Illumina可逆末端终止法通量很高机器造价昂贵Thermo Fisher连接测序法通量高,实际成本低测序时间长,读长短,成本高,碱基组拼接困难Roche焦磷酸测序法二代测序中读长最长难以处理重复和多聚区域MGI联合探针锚定聚合测序法高通量、高准确性、低重复序列率(低 Dup)上机文库为环状文库,如采用其他商业试剂盒构建了线性文库,则需采用通用文库转换试剂转换成兼容华大测序平台的单链环状DNA 文库单分子测序仪PacBio单分子荧光测序超长读长准确率低、仪器昂贵ONT单分子纳米孔测序长读长准确率低信息来源:基因慧整理5)DNA 碱基-二进制比特解码DNA 测序完成后,通过 DNA 解码获得 DNA 存储的原始信息。基础原理如下:通过检索选择目标 DNA 再使用映射到编码过程中所生成特定数据项的引物和 PCR 扩增,获得目标 DNA,再通过测序仪获取 DNA 对应的序列。通过映射规则将序列转码成原始的 0 和 1 字节信息。关于 DNA 存储原理的更多详细内容,请参考本蓝皮书的第二章。基因慧 DNA 存储蓝皮书28版权所有侵权必究1.1.5 DNA 存储的优势图 9:DNA 数据存储和解读的流程编码原理模型技术流程应用模式解码测序合成101101.AGT.硬盘模式光盘模式磁带模式其他模式位点 1位点 2位点 3位点 4信息编码数据写入介质保存可靠读出信息写入信息读取DNA 片段AGTACT.10110110.信息来源:韩明哲等,DNA 信息存储,生命系统与信息系统的桥梁,合成生物学,2021作为未来数字存储变革性材料,相较其他介质,DNA 存储的优点包括:存储密度更高(可达 1019比特/立方厘米)使用寿命更长(最长可达百年)维护更加简单(维护成本几乎为零)能源消耗更少(消耗电量低于 10-10瓦特/吉字节)与市场常用的存储介质相比,DNA存储的密度最高;如果在IBM的LTO-9型号磁带放满DNA片段,DNA 存储的容量是 LTO-9 磁带容量的 115,000 倍。基因慧 一、需求:数据存储现状及 DNA 存储优势29版权所有侵权必究图 10:DNA 和 LTO 磁带存储密度的对比LTO-9 型号磁带放满DNA 片段,将容纳约2,000,000TB 的数据105mm102mm22mm1mm1mm1mm1mm1mm1mm1 平方毫米的 DNA片段可以存储 9TB的数据单个 DNA 碱基占据 1 立方纳米Thymine(T)腺嘌呤碱基对胸腺嘧啶鸟嘌呤胞嘧啶糖-磷酸骨架信息来源:DNA Data Storage Alliance 官网,基因慧整理其次,DNA 的耐用性更高。DNA 可以在常温、干燥的大气中保存数千年。斯德哥尔摩古遗传学中心等机构的科学家们对埋藏在西伯利亚冻土层中一百多万年的猛犸象牙齿进行分析,得到最古老的 DNA 测序信息。相比于数据中心的能耗,DNA 存储消耗的电量在 10-10瓦特/吉字节,这已经是现有存储介质中消耗电量最低的,占用的空间基本忽略不计。而1个艾字节级数据中心整体存储能耗约200兆瓦,占约 7 万平方米的土地面积,媒介使用寿命为 5 年,10 年的总存储成本为 10 亿美元;此外,相比于废弃的硬盘和磁带,DNA 分子可以进行完全生物降解对环境更友好。基因慧 DNA 存储蓝皮书30版权所有侵权必究1.3 DNA 政策支持与重点研发计划在全球大数据存储远不能满足大数据生产和使用的需求的情况下,各国近年非常重视 DNA 存储的技术研发和产业布局,包括编码算法、集成系统以及支撑技术 DNA 合成与测序等。图 11:相关资助 DNA 合成与存储的政策2017 年2018 年2019 年2020 年2021 年 美国半导体产业协会:半导体研究机遇愿景和指南 DARPA:分子信息学 NSF SRC IARPA:针对信息处理和存储技术的半导体合成生物学(SemiSynBio)中国科协:60 个重大科学问题以及重大工程技术难题 IARPA:分子信息存储 NIST SRC:半导体合成生物学路线图 美国半导体产业协会等:半导体十年计划 深圳先进院:2020 年度牵头获批 7 项国家科技部重点研发计划项目 欧盟:“地平线 2020”NSF:用于信息存储和检索的半导体合成生物学(SemiSynBio-II)中华人民共和国国民经济和社会发展第十四个五规划和 2035 年远景目标纲要新设立“BT 与 IT 融合”专项:信息来源:基因慧整理美国作为全球最早布局 DNA 存储技术研发的国家之一,自 2017 年,颁布多项国家政策推动DNA 存储发展。表 5:美国地区 DNA 存储政策解读日期发布机构政策研究主题2017/03美国半导体行业协会(SIA)和半导体研究联盟(SRC)半导体研究机遇:行业愿景与指南推动人工智能、物联网、超级计算等未来创新技术发展2017/03美国国防部先进研究计划局(DARPA)分子信息学计划推动数据存储、检索和处理2017/05美国国家科学基金会(NSF)针对信息处理和存储技术的半导体合成生物学(SemiSynBio)项目指南促进合成生物学和半导体行业协同作用,增强信息处理和存储能力基因慧 一、需求:数据存储现状及 DNA 存储优势31版权所有侵权必究日期发布机构政策研究主题2018/05情报高级研究计划局(IARPA)分子信息存储(MIST)项目开发 DNA 数据存储的原型,减少物理存储空间、成本和能耗。2018/10半导体合成生物学联盟半导体合成生物学路线图 2018制定包含基于 DNA 的存储技术的发展目标。2019/11美国国家科学基金会(NSF)用于信息存储和检索的半导体合成生物学”(SemiSynBio-II)推动合成生物学和半导体行业的协同作用2020/02美国国家科学基金会(NSF)SemiSynBioII 期的项目招标指南进一步推动合成生物学和半导体行业的协同作用2020/10半导体行业协会 SIA 和半导体研究公司(SRC)半导体十年计划寻找内存和存储器的解决方案并鼓励开发基础新存储技术(DNA 存储等)信息来源:基因慧整理尽管中国DNA存储技术起步相比其他国家要晚,但我国高度重视DNA存储技术的研发和创新,并布局了全链条 DNA 存储核心技术,包括 DNA 编码、DNA 合成、DNA 测序等。表 6:中国地区 DNA 存储政策解读日期发布机构政策研究主题2018中国科学技术协会60 个重大科学问题以及重大工程技术难题推动 DNA 存储技术的创新和突破2020科技部7 项国家科技部重点研发计划项目DNA 存储过程中多方协同操作和安全性问题,提出混合加密方法和增量编码技术。2021国家发改委中华人民共和国国民经济和社会发展第十四个五规划和 2035 年远景目标纲要加快布局包含 DNA 存储等前沿技术、加强信息科学与生命科学、材料等基础学科的交叉创新。信息来源:基因慧整理中国在 2018 年的60 个重大科学问题以及重大工程技术难题政策中专门设立 DNA 存储的基因慧 DNA 存储蓝皮书32版权所有侵权必究相关项目:包括高通量脱氧核糖核酸(DNA)合成创新技术及仪器研发、使用合成 DNA 进行数据存储的技术研发。在“十四五”国家重点研发计划“生物与信息融合(BT 与 IT 融合)”重点专项 2021 年度项目申报指南的相关项目:DNA 分子信息存储的高加密性编码与信息安全体系研究 基于多类型生物分子的超高密度信息存储技术研发 大规模可寻址可控催化 DNA 合成技术研发 超高通量单分子晶体管测序技术研发欧盟地区未明确出台与DNA存储相关的政策文件,但欧盟对DNA存储的支持大多通过资金赞助。其中在地平线 2020 计划中提到:资助 Eurecom、DNA 存储初创企业 Helixworks、法国国家科学研究中心进行深入研究 资助 OLIGOARCHIVE 项目,旨在研究智能 DNA 存储系统,涉及存储全过程,包括编码、合成、存储、解码等全过程除了美中欧地区,也有部分国家参与 DNA 存储和合成生物学领域的行动。比如日本,澳大利亚等。表 7:其他地区资助 DNA 合成和测序解读日期国家发布机构相关行动2005日本细胞合成研究协会为合成生物学提供资金补助2016日本丰田汽车公司、DNA 研究所下一代基因测序仪的研究,开发低成本、高效 GRAS 技术2019日本国际合成生物设施联盟(GBA)推动合成生物学发展2021澳大利亚联邦科学与工业研究组织(CSIRO)创建合成生物学科学平台旨在支持生物、科技等多行业创新信息来源:基因慧整理基因慧 一、需求:数据存储现状及 DNA 存储优势33版权所有侵权必究1.4 国内外研发进展目前 DNA 存储技术处于早期,DNA 存储研发中心和技术研发量快速增加,且研究论文发文量和专利数量也大幅增长。在国家及地区方面,美国、欧洲和中国已经高度重视 DNA 存储技术,美国在 DNA 存储技术的专利研发和 DNA 存储相关论文上占据绝对优势。图 12:2001-2020 年公开的 DNA 合成与存储专利数量、代表性专利权人及合成成本的变化 美国 欧洲专利局 中国 日本专利公开量/件合成成本/美元固相亚磷酰胺合成法改进带来的成本下降基于微阵列的合成带来的成本下降酶促从头合成法或在未来带来成本大幅下降?企业(平台)示例信息来源:陈大明等,从全球专利分析看 DNA 合成与信息存储技术发展趋势,合成生物学,2021DNA 存储的研究论文发文量逐年递增,最早的 DNA 存储相关的论文于 1961 年发表,随后在1990 年发文量突破 100 篇,并在 2021 年发文量达到 636 篇,预示着 DNA 存储技术得到广泛的社会关注及认可。截至 2022 年 3 月,2022 年 DNA 存储的发文量已达到 162 篇。基因慧 DNA 存储蓝皮书34版权所有侵权必究图 13:DNA 存储的技术发展进程苏黎世联邦理工学院引入 RS 纠错码2015德州大学奥斯汀分校、华盛顿大学、微软公司联合研发存储信息“随机访问”技术 2016华盛顿大学、微软公司 DNA 存储技术首次突破 200MB 存储容量2018Catalog 公司利用独创的 DNA 写入技术,存储 16GB 的维基百科数据2019哥伦比亚大学,苏黎世联邦工学院 首次提出了万物 DNA 的概念2020天津大学构建首个存储信息的人工染色体清华大学 开发了基于镜像 DNA 的信息存储技术2021伊利诺伊大学 研发了 DNA 数据存储专用的扩展分子字母表中国科学院天津工业生物技术研究所创建了二步循环酶促 DNA 合成技术深圳华大生命科学研究院发表了独创的“阴阳”双编码技术,实现了稳定高密度的 DNA 存储2022以色列理工学院简并碱基提高逻辑密度,2bits/nt华盛顿大学、微软公司三代纳米孔测序技术读取 DNA 组装长链2019哥伦比亚大学引入喷泉码,逻辑密度达 1.57bits/nt哈佛医学院运用 CRSPR 技术将视频写入大肠杆菌菌群2017 Science、Nature 期刊提出概念“在 DNA 中存储少量信息”1965哈佛医学院、欧洲生物信息中心首次在寡核苷酸池存储超过百 KB 数据 2012信息来源:基因慧整理目前,国外学者和产业研究机构正在积极开展 DNA 存储技术研发,举例如下:2022 年,伊利诺伊大学厄巴纳、贝克曼研究所研究人员组成的团队在 Nano Letters 上报告了一种专为 DNA 数据存储开发的扩展分子字母表,这一拓展分子字母表可以实现 DNA 数据存储密度2 倍左右的提升,同时提升数据写入的速度,以及降低数据记录的延迟。2022 年,华盛顿大学研究团队提出一种从复杂寡核苷酸库中高效、选择性地检索寡核苷酸的组合 PCR 方法,他们的方法为扩大 DNA 数据存储系统提供了一条可行的途径,并且在访问特定目标寡核苷酸时,可以设计自己的引物区域且具有更广泛的实用性。2021 年,微软研究院的研究团队提出一种比以前快 1000 倍的芯片编写合成 DNA 的新方法,允许更高的写入吞吐量,从而降低与写入内容相关的成本。2021 年,佐治亚理工学院(GTRI)的研究团队设计一种微芯片,可以显著提高以 DNA 形式写入数据的速度,该团队预计将比当前的 DNA 存储技术提高 100 倍。基因慧 一、需求:数据存储现状及 DNA 存储优势35版权所有侵权必究2020 年,哥伦比亚大学联合苏黎世联邦工学院发布了一项最新技术:通过 3D 打印制作斯坦福兔,并且将兔子的三维结构数据以双链 DNA 结构形式内置于打印材料中。通过编码和解码,这只 3D 打印的兔子模型实现了其自身数据的 DNA 存储和传递。该技术验证了万物皆可实现 DNA 存储的理论。国内市场起步较晚,但近年发展迅速,也获得政府、科研院校及产业机构对 DNA 存储的编码算法、DNA 合成设备、微流控芯片等投入及研发。重大进展举例如下:2022 年,中国科学院天津工业生物技术研究所在酶促 DNA 合成方面取得重大突破。研究团队利用改造获得的合成酶创建了二步循环酶促 DNA 合成技术,合成 DNA 的平均准确率高达 98.7%,与商业化的 DNA 化学合成法准确率相当,具有巨大的应用前景。2022 年,北京大学的研究团队构建了一种 DNA“纳米弹弓”,通过对纳米机器进行远距离 DNA 别构信号转导和精细调控,在 100nm 尺度的自组装纳米机器上实现了别构分子信号隔空传递,以及 15nm 单纳米颗粒的响应释放,为 DNA 存储中的数据处理提供了新思路。2022 年,上海交通大学研究团队设计一种基于开关电路的 DNA 计算方案,通过集成多重传感和逻辑分析,自动将检测到的基于单核苷酸突变(包括插入、缺失和 SNP)的信息与表型结果相关联,为临床诊断和指导个性化用药提供了一种分析细微分子信息的新模式。2021 年,天津大学研究团队,基于酵母基因组合成技术,成功设计并构建了专门用于数字信息存储的人工酵母基因组,实现了现在为止最大体量的细胞内信息存储,为结合全链条的 DNA 大片段合成与人工信息细胞存储奠定了技术基础。2021 年,东南大学的研究团队改进了传统化学合成方法,运用电化学方法,将东南大学“止于至善”四个字编码为 DNA 序列并存储与电极上,随后并成功读取。在未来,刘宏团队计划摆脱对液体试剂的依赖,研发全固态的 DNA 存储设备。2021年,清华大学的研究团队合成了分子量达90 kDa的大型镜像蛋白质:镜像PfuDNA聚合酶,利用该高保真镜像聚合酶组装出千碱基长度的长链镜像 DNA,并开发了基于镜像 DNA 的信息存储技术。2020 年,深圳华大生命科学研究院与天津大学团队利用完全自主研发的 DNA 合成、测序以及编解码技术,实现了对开国大典视频资料的 DNA 存储应用示范,该成果也入选了“十三五”科技创新成就展。基因慧 DNA 存储蓝皮书36版权所有侵权必究图 14:DNA 存储技术领域发文量70060050040030020010001961197119811991200120112021信息来源:PubMed,基因慧整理&制图据中国科学院成都文献情报中心分析,美国在 DNA 存储研究中起步较早,基于 DNA 存储技术领域文献发表数量,前十位研究机构中有 6 家来自美国,中国唯一一家入选机构中国科学院排名第七。表 8:DNA 存储技术领域发文量排名前 10 位的研究机构排名研究机构发文量/篇被引频次总计/次1加州大学系统3915752法国国家科研中心209053哈佛大学168654麻省理工大学165445苏黎世联邦理工学院142026伊利诺伊大学143087中国科学院132308华盛顿大学13213基因慧 一、需求:数据存储现状及 DNA 存储优势37版权所有侵权必究排名研究机构发文量/篇被引频次总计/次9美国能源部1326910微软研究部1218810德国亥姆霍兹联合会12386信息来源:宋琪等.DNA 存储技术国际发展态势分析.世界科技研究与发展.2020其次,在专利数上,据中国科学院上海生命科学信息中心分析,美国、欧洲专利局、中国是目前全球在 DNA 合成与存储领域中最为活跃的三个地区,美国、欧洲因行业起步早而在专利数上有一定的领先地位,中国则与其他国家合作研发中较为活跃。近十年来,专利布局保护的课题也从寡核苷酸合成转变到多核苷酸合成,酶促合成的专利逐渐增加。图 15:DNA 存储技术专利来源国家/地区分布 美国,144,58%中国,48,48.19%法国,10,4%日本,10,4%韩国,9,4%德国,6,2%英国,5,2%其他,18,7%信息来源:宋琪等,DNA 存储技术国际发展态势分析,世界科技研究与发展,2020另外,美国是 DNA 存储技术专利申请最重要的技术保护市场地,其次为中国和欧洲地区、韩国和日本等。据中国科学院上海生命科学信息中心分析:全球有 58%的专利来源于美国,是目前DNA 存储技术专利主要来源国家,其次是中国(19%)、法国、日本、韩国等。基因慧 DNA 存储蓝皮书38版权所有侵权必究1.5 市场容量和投融资由于超高密度、极其稳定、超长期存储等特点,同时基于分子流代替介质存储信息流,DNA存储可真正实现 BT 和 IT 的融合,其中 BT 包括分子材料、分子诊断、基因治疗、生物安全等;IT 包括通信、存储、算法、DNA 计算等。目前市场上参与研发 DNA 存储及其配套措施的企业有:Twist Biosciences、DNA Script、微软、西部数据、MGI、联川生物、生工生物、擎科生物、腾讯、华为等。1.5.1 DNA 存储的市场容量DNA 存储的应用还在早期,但是由于以上的技术特点、BT 和 IT 的融合、有极其广阔的应用空间。包括:新型 IDC(Internet Data Center)模式 新型数据信息加密 分子标签 基于 DNA 计算的分子诊断基于 DNA 的稳定性及超长期使用寿命等优点,DNA 存储将改变 IDC 的现状。根据信通院、中商产业研究院相关数据,2020 年中国 IDC 市场规模为 1168 亿元,中国市场约占据全球规模的 10%,2020 年全球 IDC 市场规模约为 11680 亿元。按照 DNA 存储预计在 2026 年实现部分商业化、且以 5%的市场渗透率估算,基因慧预计 2026 年,DNA 存储的数据存储市场规模将达到 1585.52 亿元。除了数据存储,新型数据加密市场也具有 DNA 存储的应用潜力。在全球数字化转型、信息化程度的加深、信息损失的潜在风险增加等背景下,网络安全市场实现了快速增长。根据IDC 全球网络安全支出指南,2021V1报告,IDC 预测 2021 年全球网络安全为 9133.92 亿元,2019 年至2024 年复合增长率为 9.41%。按照 DNA 存储预计在 2026 年实现部分商业化、且以 1%的市场渗透率估算,基因慧预计 2026 年 DNA 存储的数据加密市场规模为 149.55 亿元。精准医学的发展产生了新的标签化和溯源的需求。而DNA作为生命体最稳定的信息存储载体,具有无限的信息编码能力与指纹的特性,是最好的信息标签。根据 BBC Research 的数据显示,2021 年全球精准医学的规模在 7638 亿元,按照 DNA 存储预计在 2026 年实现部分商业化、且以 1%的市场渗透率估算,基因慧预计 2026 年,DNA 存储应用为分子标签的市场规模为 150.46 亿元。基于 DNA 计算的分子诊断目前尚处于早期研发阶段,因此,本文并没有将分子诊断的规模计算在其中。基因慧 一、需求:数据存储现状及 DNA 存储优势39版权所有侵权必究图 16:2026 年 DNA 存储市场分类 新型 IDC,84%网络安全,8%分子标签,8%信息来源:基因慧整理&制图综上所述,基因慧按照 DNA 存储预计在 2026 年实现商业化的前提下,全球 DNA 存储 2026 年至 2030 年的复合增长率为 21.46%,预计行业规模将从 2026 年的 1885.54 亿元增长到 2030 年的4103.29 亿元。1.5.2 DNA 存储企业的投融资概况DNA 存储是生物技术和信息技术融合的典范,更是合成生物的重要应用场景之一,在研发方面需要大量资本投入(特别是芯片合成技术等)。资本在 DNA 存储投融资方面目前以国外资本表现较为突出,国内资本较为保守。2002 年以来,DNA 存储的基础研究发展迅速,资本已经开始关注相关研究结果;在 2011 年,应用开发也得以快速发展,小部分资本开始进行投资;在 2015 年,产业投资快速发展,融资额接近 10 亿美元;在 2021 年,国家以及社会资本开始大幅度资助或投资合成生物学行业,融资额已达到 89 亿美元。基因慧 DNA 存储蓝皮书40版权所有侵权必究图 17:2012-2021 年合成生物学企业融资额3.744.638.819.8612.92183831.2788920120102030405060708090100201320142015201620172018201920202021年份融资额(亿美元)企业创新案例信息来源:基因慧整理DNA 存储吸引了一大批投资机构和企业。企业融资来开发降低 DNA 合成成本的方法,并推动DNA 存储实现商业化。在 2012-2021 年期间,合成生物学企业融资额从 3.74 亿美元快速增长至 89亿美元,CAGR 为 42.22%,其中 64%的企业专注于 DNA 合成领域。表 9:国外 DNA 存储相关企业近 3 年融资额统计公司融资时间融资额融资轮次Ansa Biotechnologies2022/046800 万美元A 轮Molecular Assemblies2022/032580 万美元B 轮Cache DNA2022/0325.6 万美元Pre-Seed 轮DNA Script2022/012 亿美元C 轮Catalog2021/093500 万美元B 轮Iridia2021/032400 万美元B 轮Catalog2020/091000 万美元A 轮Ansa Biotechnologies2020/09920 万美元种子轮基因慧 一、需求:数据存储现状及 DNA 存储优势41版权所有侵权必究公司融资时间融资额融资轮次Evonetix2020/032300 万美元B 轮Molecular Assemblies2019/101220 万美元A 轮Ginkgo Bioworks2019/092.9 亿美元E 轮DNA Script2019/053850 万美元B 轮信息来源:基因慧整理从近三年企业融资数据、融资轮次来看,DNA 存储行业仍然处于早期阶段。国外DNA存储代表企业有DNA Scrpit、Iridia、Molecular Assemblies、Catalog、Ansa Biotechnologies、Customarray等,其中国外DNA存储代表企业关注的方向有酶促DNA合成、DNA编码算法、化学合成等。国内 DNA 存储代表企业有华大、擎科生物、联川生物、生工生物、腾讯云、中科碳元、密码子、华为云等。其中在细分方向上,国内代表的融资企业专注于微阵列 DNA 合成,DNA 化学合成,DNA编码算法等。总体而言,通过国内外融资赛道分析,目前 DNA 存储行业的难点仍然在于 DNA 合成领域,如何降低合成成本以及提高合成的效率是资本市场重点关注方向。表 10:国内 DNA 存储代表性企业近 3 年融资额统计公司融资时间融资额融资轮次擎科生物2022/01近 2 亿元A 轮密码子科技有限公司2022/01数千万元Pre-A 轮联川生物2021/11近亿元C 轮2020/061.15 亿元B 轮中科碳元2021/08数千万元天使轮芯宿科技2022/05数千万元天使 轮2021/07数千万元天使轮迪赢生物2021/06近亿元A 轮2019/08数千万元天使轮信息来源:基因慧整理基因慧 DNA 存储蓝皮书42版权所有侵权必究美国、欧洲和中国对于 DNA 存储的投资方式和资助特点有很大不同,根据元英进院士团队的分析,有以下特点:美国具备多层次资助体系,包含 DARPA、IARPA、NSF 和社会资本 受益于多层次资助体系,美国在 DNA 存储行业发展中占据绝对优势 中国地区以研发为主,社会资本投入低,政府出台相应政策鼓励研发 DNA 存储技术 欧洲主要依靠地平线 2020 和 2021 计划来支持 DNA 存储行业二、技术:DNA 存储的技术流程与进展基因慧 DNA 存储蓝皮书44版权所有侵权必究2.1 DNA 存储系统简介从 1964 年开始,利用生物/化学大分子作为信息存储介质的思想开始萌芽;2012 年开始进入实质研发阶段。可用于信息存储介质的生物/化学大分子包括 DNA、蛋白质、代谢化合物、聚合体高分子化合物等。信息存储系统最重要的步骤是信息的写入与读取。尽管蛋白质、代谢化合物、聚合体高分子化合物的序列合成已可以部分实现,但序列合成与信息读取(依赖于高分辨率的质谱技术)的成本与效率均阻碍了下游应用普及。相比之下,DNA 分子的合成与测序技术相对更成熟,大部分装备已商业化。因此,基于相对低成本和规模化等巨大潜力,目前全球科学家和工业巨头代表正大力推动 DNA 作为信息存储介质。尽管 DNA 存储从本质上均是将数字文件的二进制编码转换为 DNA 碱基的编码,但是不同系统的技术路径有较大差异,本蓝皮书重点讨论的是依赖 DNA 合成及测序的 DNA 存储系统,部分新兴技术及体系将在第四章展示。整体上,DNA 存储系统是在体内或体外合成可以编码数字信息的 DNA序列,并能进行稳定存储、读取和访问原始信息的系统。DNA 存储全流程一般可分为 6 个主要步骤,包括编码、合成、保存、获取、测序、解码。1)编码:将数字文件中的二进制数据提取出来,并按一定规则转换成为 DNA 碱基序列(包括但不限于自然碱基)。2)合成:通过化学原理或生物酶法原理,利用柱式合成、点阵芯片、半导体芯片等方式根据编码步骤获得的 DNA 序列进行从头人工合成。3)保存:通过体外溶液/干粉、活细胞内、不同类型媒介封装等方式,对携带信息的海量DNA 分子进行长期稳定存储。4)获取:通过利用如多重 PCR、生物素-亲和素序列特异性磁珠捕获等方式,完成全部或部分编码 DNA 分子的获取,用于下一步数据恢复。5)测序:将获取的 DNA 分子通过 Sanger、高通量测序、单分子等方式进行 DNA 分子序列测定。6)解码:对测序获得的 DNA 序列进行生物信息分析,根据编码规则对 DNA 碱基序列进行解码并得到原始数字文件的二进制数据,最终实现信息恢复。基因慧 45版权所有侵权必究二、技术:DNA 存储的技术流程与进展图 18:DNA 存储系统流程举例001011100数字数据编写存储检索读取解码Sanger 测序NGS 测序单分子测序随机访问体外溶液体外体内干粉活细胞化学原理或生物酶法原理,人工合成DNA 序列提取二进制数据CTCG011010110信息来源:参考 Ceze et al.,Nature Reviews Genetics,2019,基因慧整理特别值得一提的是,在 DNA 存储的全流程中的各个技术分别处于不同的发展阶段。其中,信息编码(解码)、DNA 合成、DNA 分子保存(封装)以及 DNA 测序均已完成了原理验证,并在效率、成本等方面不断改进突破。针对存储系统的功能模块,目前已有利用分子生物学技术、纳米技术及微流控技术等实现如检索、修改、删除等功能,但相较而言还处于早期发展阶段。基因慧 DNA 存储蓝皮书46版权所有侵权必究2.2 信息编码(比特信息转换为 DNA 序列)2.2.1 信息编码概述从二十世纪二十年代起,随着通信技术的兴起,信息论思想开始萌芽,1948 年香农在贝尔系统技术杂志发表了通信的数学理论后,信息论才真正成为一门学科理论。信息论的基础包含应用数学、电子学和计算机科学,涉及了信息的量化、存储和通信等等,其应用也已拓展到很多其他领域,如统计推断、密码学、分子编码等。信息论的发展也促进了计算机、互联网等现代信息技术的发展。在 DNA 存储中,信息编码方法开发也在香农信息论的框架下快速发展。自 2012 年美国哈佛大学 George Church 团队首次验证了规模化 DNA 存储的概念,每年与 DNA存储信息编码方法相关的研究文献逐年递增。研究思路主要聚焦于提升信息密度、生物化学约束的兼容性、错误纠正、不同存储功能适配性(如信息的随机读取、搜索、预加载等)以及安全性等。1)读写生化技术的兼容性:不同于计算机的电信号,不同 DNA 序列的生物化学操作在处理某类型的 DNA 序列时可能会出现反应低效或失效的情况,从而影响原始存储信息的有效恢复。因此,编码算法的重要性能是在保证较高编码效率的同时,提升所生成的 DNA 序列对现有合成与测序生化技术流程的兼容性,例如缩短序列中的单碱基重复(Homopolymer)序列,避免潜在二级结构生成,保持序列 GC 含量适中等。2)错误识别与纠正:在 DNA 分子的合成、保存和测序等涉及的生化操作中,不可避免地会被引入错误。错误类型包括 DNA 序列中位点的突变、插入和删除,片段的删除以及整条分子的丢失。这要求编码算法通常会自带纠错性能或额外加入纠错编码,以达到错误发现、定位及纠正的目的。3)存储功能适配性:为了完成某些特定的存储功能,对编码算法生成的 DNA 序列之间存在额外要求。例如,为实现信息模糊搜索的功能,信息越相近的 DNA 序列应该存在更多的相似性,这使得相近信息所对应的 DNA 序列可进行分子杂交。此外,某些特殊情况下,会要求 DNA 序列形成某种特殊结构,使其不易被读取,从而满足防止恶意复制或加密的需求。2.2.2 现有 DNA 存储的信息编码方法简介现有已发表的编码算法的工作大致可分为两类:第一类为基于受限的基本映射关系的编码算法,包括但不限于 Church 编码算法、Goldman 编码算法、Grass 编码算法、Blawat 编码算法等。这些编码算法在考虑单碱基重复和/或其他的约束要求下确定了比特与受限碱基之间的映射规则。通过牺牲一定的编码信息密度,利用固定映射规则,如 01011001 只能对应 TCATG,避免了出现单碱基重复的可能性。第二类为在基本映射关系基础上增加筛选过滤步骤的编码算法,包括 DNA Fountain 喷泉码和基因慧 47版权所有侵权必究二、技术:DNA 存储的技术流程与进展Yin-Yang 双编码算法,利用文件中二进制信息片段的组合多样性,生成更多不同的 DNA 序列。在完成基本映射编码后,会针对生成 DNA 序列进行生化约束条件下序列筛选过滤。因此,由这类编码生成的 DNA 序列必然会完全满足预先设定的生化约束条件,如 GC 含量、单碱基重复、二级结构自由能等。表 11:编码算法的工作类别优势劣势固定规则的编码编码和解码的耗时、转码率稳定只能面向简单的生化约束条件。(e.g.无法引入比如序列自由能这类生化限制)引入条件过滤机制的编码理论上可以满足任意生化约束条件。单一方法的编解码耗时、转码率可能不稳定。(e.g.受到输入文件二进制特征以及预设生化约束条件的影响。)信息来源:深圳华大生命科学研究院整理2.2.2.1 Church 编码算法2012 年,George Church 团队首次验证了规模化 DNA 存储的概念,并估计了 DNA 存储的理论存储密度(5.5 Pb/mm3或 455EB/g)。该团队率先提出了“比特-碱基”的简单编码过程,即 Church 编码算法。如下图所示,比特于碱基的映射关系为:0-A/C,1-G/T。因此,在编码过程中,碱基 A 和 C 之间,碱基 G 和 T 之间可以等价替换,通常用随机选择方式完成。图 19:Church 编码算法示例11110GTGTA0A0C1G1T二进制序列DNA 序列随机选择信息来源:参考 Church,G.M.et al.,Science,2012考虑到单碱基重复会导致 DNA 序列在合成或测序过程中可能出现错误,当已转码序列末尾存在连续 3 个相同的碱基时(例如 AAA),转码算法会将其中一位碱基替换为其等价碱基(例如 A替换为 C)。该方法可以完全避免三个以上连续碱基重复的情况,但对特定数据结构,一旦映射基因慧 DNA 存储蓝皮书48版权所有侵权必究关系确定,则无法实现对 GC 含量的调控。2.2.2.2 Goldman 编码算法为了直接消除单碱基重复对合成或测序过程的影响,2013 年 Nick Goldman 团队提出了一种基于霍夫曼编码的轮转编码规则。首先,使用霍夫曼三叉树分析需被转码的二进制文件,基于字节(8 个比特)出现频率,将二进制序列转换为对应的三进制序列。图 20:Goldman 编码算法示例0101110102211TAGTG二进制序列霍夫曼三叉树轮转编码三进制序列DNA 序列前一位核苷酸当前数据信息ACGTACGTACGTACGT012信息来源:参考 Bornholt,ASPLOS,2016如图所示,文件的 0/1 信息首先转换为 0/1/2,对应的 DNA 序列当前碱基由当前的数据信息以及前一位已选择的碱基(核苷酸)所决定的。例如,若前一位碱基为 A,且当前的数据信息为 2,则当前的碱基为 G。该方法可以完全避免连续碱基重复的情况,但在固定规则情况下,无法实现对 GC 含量的调控,同时可能出现片段重复。Goldman 编码首次将信息科学中的统计编码方法也即霍夫曼编码引入 DNA 存储,也是首个将比特-碱基信息密度纳入考虑的编码方法。同时它也利用分段重复保存的原理,将每个信息在 4 个不同的分子中进行备份拷贝,尽管一定程度上增加了成本,但大大提高了稳定性。后续的 Borholt等人对该方法进行了改进,利用异或运算大大降低了备份拷贝,或者冗余的信息量。Goldman 编码也对如 Grass 编码、Yin-Yang 双编码等后续开发的算法提供了思路。2.2.2.3 Grass 编码算法2015 年,Robert N.Grass 团队将有限域(Galois field)与碱基三联体(triplet)进行关联,提出了可避免长度大于 3 的单碱基重复的编码算法。碱基三联体是由长度为 3 的碱基构成的 DNA 序列。在该算法中,规定三联体的后两个核苷酸基因慧 49版权所有侵权必究二、技术:DNA 存储的技术流程与进展不可相同,因此全局范围内单碱基重复长度不会超过 3。通过组合计算可得,碱基三联体一共有种组合方式。Grass 等人除了“TGT”的组合,最终得到 47 种组合方式。如图所示,在编码过程中,2 个字节共 16 位的二进制比特序列会被首先转换为 47 进制的数字序列(216 472),即 47 位的有限域。然后再基于该 47 进制的序列与碱基三联体的简单映射,完成二进制比特序列到 DNA 序列的转换。该算法考虑到了单碱基重复的问题,然而并未解决对于特定数据结构下 GC 含量的调控。图 21:Grass 编码算法示例01011101101111100446A C A A G A G G TAACAAGACAAGATGCGGTTGT二进制序列47 进制序列有限域 GF(47)47 种 DNA 组合(后 2 个碱基不等)0446简单映射映射DNA 序列信息来源:参考 Grass et al.,Angew.Chem.Int.Ed.,2015 该方法可以有效避免连续三个以上的单碱基重复,同时其理论信息密度可以达到 1.78 比特/碱基。同时在编码过程中,Grass 等人首次引入了信息技术中的纠错编码,除原始信息和索引外,增加了两个纠错编码区域。这两个纠错编码区域均使用信息技术中常用的里德所罗门(Reed-Solomon)编码。其中,第一部分的纠错编码出现在每条 DNA 序列末尾,用于纠正每条信息(DNA 序列)内部的错误;第二部分的纠错编码添加了额外的 DNA 序列,用于纠正不同序列间可能出现的错误,并与纠错编码 A 相互印证。上述双重纠错区域的设置方式,在一定程度上完成 DNA 存储过程中发生的碱基错误或丢失。Grass 编码作为首个将 DNA 存储的信息准确性纳入考量的算法,应用信息科学工具中的纠错编码,拓展了 DNA 存储的编码模块,为此后的 DNA 存储更准确地应对 DNA 序列在合成、扩增、测序中无法避免的碱基替换错误提供了解决方案。在此之后,绝大多数的编码算法开发,都在 DNA 序列中支出一部分碱基,作为信息纠错的开销。基因慧 DNA 存储蓝皮书50版权所有侵权必究2.2.2.4 Blawat 编码算法Meinolf Blawat 及其同事在 2016 年发布了一种编码算法,以处理 DNA 测序、扩增、和合成过程引入的错误。该方法以字节而非比特作为碱基转换的基本单元,将一字节信息(长度为 8)转换为长度为 5 的 DNA 序列信息。如图所示,一个字节会被分为两个部分。其中,前六个比特为固定转换的部分,后两个比特为可选转换的部分。固定转换部分的映射关系为 00-A,01-C,10-G,11-T。可选部分为 00-(AA/CC/GG/TT),01-(AC/CG/GT/TA),10-(AG/CT/GA/TC),11-(AT/CA/GC/TG)。通过固定与可选转换部分组合,必定可以在可选的四种选项中选择其中一种碱基组合,以保证前三个碱基不全相同,后两个碱基不全相同。与此同时,解码过程中,该算法可以通过对编码规则的反推,进行一定程度的纠错。图 22:Blawat 编码算法示例GCTGCTGCTGCTAGCTGATCGCATG10011110二进制序列DNA 序列固定转换固定项(保证前 3 个不相等,后 2 个不相等)组装组装可选项可选转换信息来源:参考 Blawat et al.,Procedia Computer Science,2016Blawat 编码一定程度上继承了 Church 编码碱基互换的思想,在纠错方面并没有利用信息学中的纠错码,而是利用自身编码算法的特点,通过反向推导去除错误选项达到纠错的目的。2.2.2.5 DNA Fountain 编码算法2017 年,来自哥伦比亚大学基因组中心的研究人员 Yaniv Erlich 和 Dina Zielinski 提出了基于 Luby 变换码(Luby Transform)的编码算法。Luby 变换码作为首个实用性喷泉码,可以从一组给定的源数据包中产生一串无限的编码符号序列,在理想情况下,只需获得大小和源数据包总量基因慧 51版权所有侵权必究二、技术:DNA 存储的技术流程与进展相同或稍大的任意编码符号子集,便可恢复源数据信息。因此,Erlich 等人将他们的编码算法命名为“DNA 喷泉码”。与上述算法不同的是,该算法并未将约束条件写入映射规则中,而是通过筛选机制使得最终获得的 DNA 序列满足约束要求。其具体做法为,过滤不满足约束要求的 DNA 序列。由于在卢比变换中,随机选择和异或操作是可以不断进行迭代的,因此理论上,可以获得满足 Luby 变换码解码数量的 DNA 序列。图 23:DNA Fountain 编码算法示例010111010011110110000011111000111011111011100011ACGTATTGATDNA 序列二进制序列序列 1序列 2随机种子随机选择异或操作附着操作编码操作基于既定条件的筛选操作(不满足则丢弃)信息来源:参考 Erlich et al.,Science,2017生成 DNA 序列的过程如图所示。首先,将二进制序列分为多条二进制子序列。其次,基于特定的随机数种子,在所有二进制子序列中选择一或多条二进制子序列进行异或操作。最终,连接随机数种子和异或操作获得的二进制子序列,依据 00-A,01-C,10-G,11-T 的映射要求,将对应的二进制子序列转换为 DNA 序列,以支持后续筛选条件的判断。未通过筛选的 DNA 序列将被过滤,并进行下一轮的迭代运算。该算法中,同时也应用了里德所罗门(Reed-solomon)纠错编码,对纠错效率进行进一步的巩固。DNA 喷泉码的整体表现对比此前开发的编码算法上升到了一个全新的台阶,同时也打开了借鉴传统高级信息编码进行 DNA 存储的大门。它的出现推动了 DNA 存储的编码算法理论研究,并吸引了更多的传统信息学科学家、数学家等参与到 DNA 存储技术研发中来。基因慧 DNA 存储蓝皮书52版权所有侵权必究2.2.2.6 阴阳双编码算法参考筛选操作和 Goldman 编码算法,深圳华大生命科学研究院的平质等研究人员主导提出了Yin-Yang 阴阳双编码算法。相比 DNA Fountain 编码算法,该方法并非基于随机数种子和异或操作获得 DNA 序列,而是基于某种选中的规则簇(共计 6144 种),基于“阴”和“阳”两种轮转规则,将两条二进制子序列转换为一条 DNA 序列。此外,如果在一定迭代次数后仍然找不到满足要求的 DNA 序列,则选中一条二进制子序列并在外部生成一条随机的比特序列进行阴阳轮转操作,获得一定满足要求的 DNA序列。具体的阴阳轮转操作如下图所示。首先,将被选中的两条二进制子序列(其中一条或通过随机生成)标定为上位序列和下位序列。其次,设定一个虚拟碱基作为起始碱基。再则,通过当前的上位比特选中 2 种碱基,再通过当前的下位比特和前一碱基(如首轮则为虚拟碱基),选中 2种碱基。基于两次被选中的 2 种碱基,选择其中处于交集的碱基作为当前碱基。以下图的虚拟碱基 A 为例。当前的上位比特为 0,选中 A 和 T。当前的下位比特为 1,依据虚拟碱基 A 作为前一碱基,则选中 C 和 T。两者的交集为 T,因此,第一位碱基为 T。后续每一位碱基以此类推。图 24:阴阳双编码算法示例010111010101110110111110110010111110T C T G G G A GAAGCAACCAACCAGCTTGGTTGGTT二进制序列DNA 序列序列 1虚拟碱基上位下位编码操作随机选择上位比特下位比特前一碱基序列 2基于既定条件的筛选操作(不满足则丢弃)信息来源:参考 Ping et al.,Nature Computational Science,2022基因慧 53版权所有侵权必究二、技术:DNA 存储的技术流程与进展阴阳码借鉴了自然界中 DNA 双链特征与中国古代哲学的阴阳两面思想,同时结合了 Goldman编码的轮转思路与 DNA 喷泉码的筛选思路。它可以达到与 DNA 喷泉码相媲美的高信息密度(1.95比特/碱基),并针对 DNA 存储中信息传输异步这一有别于传统信息传输体系的特点,不同信息包之间相互独立,并未建立解码关联性。这一做法使得其在应对碱基错误与序列丢失的表现上比DNA 喷泉码有了明显优势。在进一步的实验验证中,阴阳码可以在低分子拷贝数(100)下获得更高的数据恢复率(实验数据表征可达到 88%)。阴阳码也提供了多达数千种的编码规则,结合二进制片段灵活的组合方式,该方法可以应用于多种场景,包括文件的归档、数据的加密等等。2.2.2.7 其他除上述方法外,专利局中也有一些相关的编码方法:在美国专利局中,专利号为 US 10650312 B2,Nathaniel Roquet,HyunJun Park,Swapnil P.Bhatia 提供了一种将信息写入核酸序列的方法,包括:1)将信息翻译成一串符号;2)将符号串映射到多个标识符,其中所述多个标识符中的单个标识符包含一个或多个组件,其中所述一个或多个组件的单个组件包含核酸序列,并且其中所述单个标识符多个标识符中的一个对应于符号串中的单个符号;3)构建包括多个标识符的至少一个子集的标识符库。在中国知识产权局中,专利号为 CN201910909449.2,毕昆,陆祖宏等人公开了一种基于混合模型的 DNA 存储编解码方法,包括如下步骤:1)输入原始数据进行二进制转换,并进行霍夫曼编码压缩;2)将文件分为若干列,列首添加地址码;将 DNA 存储四进制和二进制模型混合编码,并修改初始模型码;3)采用 RS 编码对模型码添加纠错码,然后对 DNA 序列进行 RS 编码纠错;4)重复上述步骤,直至所有序列均完成编码与纠错;将所有序列按文件码和编号码排序,利用 RS 编码对每 123 列添加 4 列纠错序列,此编码方法将传统的 DNA 存储四进制模型与二进制模型混合编码,编码潜力达到 1.75;相较于四进制模型,能够更好地控制 GC 百分比,而与二进制模型相比,存储能力大大提高。2.2.3 编码集成与评估方法目前公开的 DNA 存储编码算法所采用的编程语言、编码所设定的技术参数各不相同,不利于基于已有研究基础的后续开发优化,针对不同类型数据文件的最适配算法选择也缺乏相应的评价或是选择标准,从而阻碍了该领域的交流与发展。因此,对于已开发的不同编码算法的设计应当一致,评价标准应当形成明确的共识。基因慧 DNA 存储蓝皮书54版权所有侵权必究2.2.3.1 DNA 存储编码算法的集成与评价平台:Chamaeleo 和“阿童木”2021 年,深圳华大生命科学研究院研究团队发表针对 DNA 存储不同编码算法的集成与评价平台 Chamaeleo 系统的研究成果。如下图所示,Chamaeleo 系统由转码模块、纠错模块和流程模块构成。其中,流程模块用于实际转码/评估任务的执行,转码模块中的转码算法以及纠错模块中的纠错码都会通过实例化的方式被流程模块中的具体流程所使用。目前,Chamaeleo 集成了基本编码算法(即“A-00、C-01、G-10、T-11”的无约束的映射关系)以及章节 2.2.2 中提及的 6 种编码算法及其优化版本。此外,针对汉明纠错和 RS(Reed-Solomon)纠错进行了实现。上述算法均在不同的平台(Windows、Linux、和 Mac OS)上完成了测试。为了进一步增强实用性,Chamaeleo 平台亦编写了如数据操作和流程监控等 DNA 存储所常用的工具。图 25:Chamaeleo 示例基本编码算法Church 编码算法Goldman 编码算法Grass 编码算法Blawat 编码算法DNA Fountain 编码算法阴阳编码算法编码算法序列特征分析算法性能分析稳健性/隐私性分析二进制特征分析 Chamaeleo数据文件GC 含量信息密度稳健性文件大小字节频率破译难度转码速度分析报告选择合适算法输出 DNA 序列单碱基重复长度信息来源:平质等,Chamaeleo:DNA 存储碱基编解码算法的可拓展集成与系统评估平台,合成生物学,2021除 Chamaeleo 平台外,中科碳元联合中科院深圳先进技术研究院研究团队发布了首款 DNA 数据存储在线编解码软件“阿童木(ATOM1.0)”。根据官网介绍,该软件为用户提供了友好的操作界面,可在二进制数据文件和A/T/C/G的4碱基核苷酸编码的自由转换,方便进行数据存储或读取。与传统计算机间的数据转换和通讯不同,该软件实现了计算机和生物体遗传信息之间的数据交互。基因慧 55版权所有侵权必究二、技术:DNA 存储的技术流程与进展2.2.3.2 无比率纠删码软件架构:NOREC4DNANOREC4DNA 是针对无比率纠删码(rateless erasure codes,例如 DNA Fountain)开发的一套使用、测试、比较和改进的软件架构。该架构中着重分析了包含卢比变换码、在线编码(Online Code)、旋风编码(Rapid tornado Code)在不同参数情况下的解码情况。2.2.4 编码算法的开发难点编码算法的开发难点主要集中在 3 个方面:在保证编码效率的同时需要兼顾满足特定约束条件 对约束条件的数学建模 对于任意的约束条件建立个性化编码目前,被广泛常用的约束条件为:(1)最大单碱基重复限制;(2)全局 GC 含量限制。(3)特定生物活性序列的规避。近两年,针对区域化 GC 含量的约束条件开始被讨论。除此之外,部分算法使用最小自由能让生成的 DNA 序列不具有稳定的二级结构,天津大学齐浩课题通过对 DNA 文库的连续扩增分析指出在高序列含量文库中高 GC 含量与高分子内自由能会使DNA 分子获得大的复制优势。而随着 DNA 存储各项功能的进一步开发,如体内存储、分子杂交原理的随机读取等,酶切位点、特定的 DNA 基序(motif)等也被提及。但目前除开枚举这些特定的DNA 基序以外,还没有可靠的数学模型,通过函数化的方式对其进行概括。这使得基于受限映射关系的编码算法很难进一步囊括这些约束条件。虽然基于筛选操作的编码算法可以对任意约束条件尝试获得 DNA 序列,但是算法的编码性能极大地受到输入二进制文件和参数选择的影响。而基于受限映射关系的编码算法很难对每一类约束条件的组合进行设计。因此,如何稳定地完成任意约束条件的编码算法是 DNA 存储在算法领域的潜在科学问题。除了上述三点以外,编码算法对于文件的类型应当没有明显的偏好性,对于任意文件,编码算法的编码效率与数据恢复保真度应该保持在一个较为稳定的区间内。此外,编码方法的复杂度,包括时间复杂度和空间复杂度,亦建议在可以接受的合理范围内。基因慧 DNA 存储蓝皮书56版权所有侵权必究2.3 DNA 合成(存储信息写入)DNA 合成是 DNA 存储中的核心技术之一,其效率与成本极大地影响着 DNA 存储技术的规模化应用。天然的 DNA 分子由带有不同碱基腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)的脱氧核苷酸组成;人工合成 DNA 是基于化学法或生物法,将这些脱氧核苷酸单体按事先确定的顺序依次连接起来,即 DNA 合成。常规 DNA 合成方法以单链寡核苷酸合成为基础,因此本节中的DNA 合成如无特殊说明,均指的是单链寡核苷酸合成。DNA 的合成按原理一般分为化学法合成和生物法合成。化学法合成主要基于亚磷酰胺法,其中控制方法包含光化学法、电化学法、喷墨打印法、集成电路控制等。生物法合成包括基于TdT、TdT-dNTP 交联体以及混合酶介导(见下图)。图 26:DNA 合成技术发展历程1960-2000一代合成(固相柱式)技术成熟化学法合成生物法合成技术成型技术原理验证效率稳定 通量低 成本高磷酸二酯法芯片合成法TdT 酶合成法亚磷酸酰胺法固相亚磷酰胺三酯合成法通量高 成本低 效率不稳定高效 环保2004-至今二代合成(固相芯片)2008-至今三代合成(生物酶)19552004200819811983Dr.Oligo(768)Mermade(192)擎科/领坤/仪铂(1536)Synthomics(1536)-主流成熟方法-单步效率限制合成长度,200 nt-合成过程中大量使用有毒化学试剂-作用条件温和-合成长度显著提升-避免使用有毒化学试剂光化学(LC Sciences)电化学(CustomArray)喷墨打印(Twist Bioscience)集成电路控制(Evonetix)基于分选的高通量并行合成(BGI)TdT 酶介导(DNA Script/Nuclera/Molecular Assemblies)TdT-dNTP交联体(Ansa Biotechnologies)混合酶介导(Camena Bioscience/Kern Systems)信息来源:江湘儿等,DNA 合成技术与仪器研发进展概述,集成技术,20212.3.1 化学合成2.3.1.1 化学合成的基本原理寡核苷酸化学合成起步于二十世纪四十年代末。1955 年,剑桥大学的 Todd 实验室,第一次基因慧 57版权所有侵权必究二、技术:DNA 存储的技术流程与进展用化学法成功合成了简单二聚寡核苷酸,并于 1957 年获得诺贝尔化学奖(如下图)。1965 年,Khorana 等利用化学方法大量合成脱氧核苷的单一聚合物或二种、三种脱氧核苷的重复序列,并人工合成了六十四种核糖三糖苷用于研究蛋白质的生物合成过程,从而确定了氨基酸的三联密码子,因此获得 1968 年的诺贝尔化学奖。图 27:首次化学合成寡核苷酸胸苷磷酰氯3苯甲酰脱氧胸苷偶联二脱氧胸苷信息来源:深圳华大生命科学研究院整理二十世纪六十至七十年代,寡核苷酸的化学合成方法不断被完善,主要包括改善亚磷酰胺单体的稳定性和反应活性以提高单体偶联步效率,优化保护基团的反应活性及产物的稳定性以提高氧化环节的氧化效率等。目前几乎所有的工业化的 Oligo 合成,均源于 1987 年由美国科学家 Marvin H.Caruthers 发明的“固相亚磷酰胺三酯法”。然而,由于每一步化学反应的不完全性和副反应的发生,随着寡核苷酸合成链的延长,合成错误率急剧上升,合成产物得率也显著下降。此外,由于合成过程中需要大量使用有毒化学试剂,所产生的废液、废气也需要特殊处理。为此,近年来科研人员开发出很多旨在提高合成效率、降低副反应发生率的方法,并尝试创新研发不依赖有毒化学试剂的合成方法。亚磷酰胺三酯合成法是最为广泛使用的寡核苷酸合成法,也是目前国内外主流 DNA 合成仪采用的合成方法,包括脱保护、偶联、盖帽和氧化四步循环。首先,按照预定碱基序列,通过液路系统依次在提前做好表面修饰的固相载体上加入相应的四种亚磷酰胺合成单体(A、T、C、G)及其它必须的化学试剂,以完成指定寡核苷酸序列的合成。待合成完毕后,通过氨气或利用其它碱性条件,将产物从固相载体上切除并收集,即可获得目标碱基序列的寡核苷酸。但是由于每一步化学反应的不完全性和副反应的发生(如脱保护过程中的脱腺苷等),寡核苷酸合成链越长,合成效率越低,合成错误率越高,这极大地限制了寡核苷酸合成的长度及合成质量。基因慧 DNA 存储蓝皮书58版权所有侵权必究图 28:亚磷酰胺三酯法合成原理1)脱保护2)偶联4)氧化3)盖帽信息来源:参考 Church et al.,Nature methods,2014光化学脱保护合成法按合成原理可细分为光制酸脱保护合成法和光敏单体介导光控脱保护合成法。光制酸脱保护技术原理为,光制酸前体通过光照产生酸,从而进行 5-二甲氧基三苯甲基(N,N-Dimethyltryptamine,DMT)保护基团的脱保护。该技术遵循成熟的化学合成工艺,可以确保高效的偶联收率和高保真的合成质量。同时,该方法非常灵活,任意修饰的单体分子都可以用来合成一系列修饰寡核苷酸。但光制酸效率较低,需要复杂的光控条件,且仪器设计及操作也相对比较繁琐。光敏单体介导光控脱保护合成法需要特定光敏保护基团的合成单体,与传统合成单体相比,同样需要特殊避光保存,但反应效率显著降低,合成过程中容易产生更多随机合成突变,导致合成序列保真度较低,因此限制了该方法的应用。电化学合成法中脱保护过程所需酸的来源不同。该方法利用通电条件下,在电极阳极表面原位产生质子酸,来脱除 DMT 保护基团,随后进行常规的偶联、盖帽和氧化步骤,然后进行下一个循环。尽管该合成方法脱保护体系中加入了 2,6-二甲基吡啶作有机碱,用来中和扩散出来的酸以避免相邻电极上的 DMT 基团脱保护,但在高密度阵列反应点中,当相邻距离过近时,则无法有效控制扩散。此外,该方式产生酸的效率较低,通电时间较长,且电化学过程对反应环境较为敏感,导致合成稳定性较低、合成错误率偏高。氢磷酸酯合成法是将传统的三价亚磷酰胺单体发展为五价磷单体,该单体在空气环境下相对稳定,理论上可以避免经典亚磷酰胺四步法对水氧环境的要求。然而,由于该方法的偶联反应活性比三价亚磷酰胺的低,导致合成效率也较低,因此限制了该方法的进一步应用。两步合成法能一并完成氧化和脱保护两个步骤。与此同时,在合成较短寡核苷酸链过程中,可以省略盖帽步骤,从而实现两步法合成。但该方法所涉及的缓冲体系稳定性较差,需要现配现用,基因慧 59版权所有侵权必究二、技术:DNA 存储的技术流程与进展且省略盖帽步骤会有很多偶联不完全的副产物,难以应用于长链寡核苷酸的合成。双碱基单体合成法合成同样长度的寡核苷酸序列,所需反应循环数较亚磷酰胺四步循环法减半,因此反应效率有大幅提升,且反应错误率也会相应降低。而同样的反应循环数下,采用双碱基合成法能快速高效地得到长链寡核苷酸目标序列。在 200 nt 长链寡核苷酸高效合成中,双碱基合成法更具优势。然而,当前该方法的单体成本较高,且双碱基单体溶解度较差而易结晶堵塞试剂管道,所需配套的仪器液路系统复杂度高,因此暂未形成基于该方法的设备与应用。随着双碱基单体大规模制备工艺的逐步完善,硬件系统设计与搭建能力的不断提升,有望研制基于该方法的合成仪,从而在合成成本、合成错误率及合成长度等方面实现技术突破。图 29:DNA 化学合成关键历史事件英国剑桥大学的 Todd 实验室1955 年,英国剑桥大学的 Todd 实验室合成了第一个具有 3-5 磷酸二酯键结构的TpT,并因此获得 1957 年诺贝尔奖。磷酸三酯合成法发布磷酸三酯合成法,70 年代中期发明的合成方法,并初步实现了核酸化学合成的固相化和自动化。80 年代,中科院生化所,复旦遗传所等单位使用此方法合成 DNA。科拉纳(Khorana)等人1957-1965 年,科拉纳(Khorana)等人合成了 64 种 DNA 三联体,并以此为基础确定了氨基酸的三联密码,并因此获得 1968 年诺贝尔奖亚磷酰胺合成法发布1987 年,由 美 国 科 罗 拉 多 大 学 Marv Caruther 院士发明的亚磷酰胺合成法,是目前正在使用的合成方法。1989 年开始,首台商用合成仪的推出促进了引物合成产业的发展195570 年代中195719651987信息来源:生工生物提供,基因慧整理此外,国外工业化的 Oligo 合成定制服务,始于 1989 年由 ABI 推出的第一台商业化自动 DNA合成仪。而国内始于 1995 年由生工生物建成第一条商用 Oligo 合成生产线,标志着中国由此开始了 DNA 合成定制化服务的大规模应用。Oligo 合成需要在合成仪的合成柱上先得到 Oligo 粗品,再经过氨解、纯化、定量、分装和干基因慧 DNA 存储蓝皮书60版权所有侵权必究燥等步骤,最终获得符合客户定制需求的 Oligo 成品。从合成的基本技术原理上来说,“亚磷酰胺三酯法”仍是目前主流的 Oligo 化学合成的原理基础。而从设备平台上,根据不同的应用场景,可具体可分为三个不同的层面:柱式法固相合成和芯片合成:前者仍然是商用 Oligo 合成的主流技术平台,以 IDT、生工生物和擎科生物作为国内外的行业代表企业;后者以 Twist、安捷伦、迪赢等公司为代表,主要用于超高通量 Oligo Pools 的合成。超微量、微量、常规量和大规模合成:超微量和微量分别为 fmol 和 pmol 级,主要用于CRISPR 基因编辑、基因库和 NGS 靶向捕获领域;常规量为 nmol 级,大量应用于常规 PCR 和荧光定量 PCR 上;大规模合成一次可达 mol 级,主要用于医药诊断行业的工业原料;低通量、中通量和高通量合成:柱式法自动合成仪多以 48、96、192 和 768 通量为主,最高可达 1536 通量;而基于半导体芯片为固相载体的芯片合成,能一次性合成数万条乃至上百万条寡核苷酸,在大幅提高合成通量的同时,极大降低了单位碱基的合成价格。表 12:Oligo 芯片合成和固相合成的区别合成方式芯片合成固相合成合成通量一张芯片可合成万以上条 Oligos单机最高 1536 通量合成产量超微量(fmol)微量(pmol)微量 大规模(pmolmol)保真性验证只能通过高通量测序来进行验证每条寡核苷酸均进行质谱验证使用成本探针条数越多成本越低成本恒定不受条数影响修饰基团修饰基团单一,无法在合成过程中进行修饰修饰种类丰富多样,可灵活修饰在 Oligo 的5 端、3 端和中间应用场景Crisper 基因编辑、NGS 靶向捕获、高通量基因合成PCR/qPCR、多重 PCR、等温扩增、Fisher 原位杂交、NGS 靶向捕获、NGS 接头引物代表公司Twist、安捷伦、迪赢生物、华大基因IDT、生工生物、擎科生物信息来源:生工生物整理亚磷酰胺三酯合成法是最为广泛使用的寡核苷酸合成方法,也是目前主流 DNA 合成仪采用的合成方法,包括脱保护、偶联、盖帽和氧化四步循环。基因慧 61版权所有侵权必究二、技术:DNA 存储的技术流程与进展2.3.1.2 DNA 合成设备的发展DNA 合成仪是 DNA 合成的核心装备。自上世纪九十年代起,英美等国基于经典化学合成法原理基础上开始了 DNA 合成仪的研发与商业化,经历了从第一代柱式合成仪到第二代高通量芯片合成仪的关两个关键性时期。目前,第一代柱式合成仪在市场上有多款机型流通,其中接受度较高的代表是 Bioautomation-Mermade 和 Biolyitc-Dr.Oligo 系列合成仪。2000 年,第二代高通量芯片合成仪面世,根据核心技术原理的不同,一般分为五类:表 13:合成仪的分类代表企业国家核心技术原理LC Sciences(联川生物于 2020 年收购)美国光脱保护 Paraflo 合成仪Custom Array(金斯瑞生物于 2017 年收购)美国电化学合成技术合成仪Agilent Technologies、Twist Bioscience美国喷墨打印合成仪Evonetix英国集成电路控制合成仪深圳华大生命科学研究院中国基于分选的高通量并行合成原理的高通量合成仪信息来源:深圳华大生命科学研究院提供,基因慧整理1)一代柱式合成仪柱式合成仪的合成载体为柱状管道合成柱,内部填充的可控多孔玻璃(CPG)为真正的反应介质,通过电脑程序控制试剂加入与 CPG 反应,最终合成单链 DNA。目前,具有柱式 DNA 合成仪自主研发和生产能力的研究机构及企业主要集中在发达国家和地区,包括美国的 GE、ABI、Beckman Coulter 等公司,德国的 K&A Laborgeraete、PolyGen 等公司,韩国的 Bioneer 公司,丹麦的 TAG Copenhagen A/S,日本的瑞翁医疗株式会社等。此外,由于近几年寡核苷酸合成需求的不断提升,中国市场也涌现出多家如擎科生物、江苏领坤、仪铂等多家开发一代柱式合成仪的公司。由于中国具备合成仪生产能力的企业起步较晚,行业整体技术经验积累不足、研发创新能力较弱,产品质量存在较大差距,因此在 2015 年之前,国内市场主要被国外企业所占据。而随着擎科生物合成仪的推出,以自主研发的 CPG 产品,一举打破国际技术垄断,为国内基因行业的发展注入强大的推动力。基因慧 DNA 存储蓝皮书62版权所有侵权必究表 14:一代柱式合成仪代表性公司概览国家公司官网美国GEhttps:/Coulterhttps:/Laborgeraetehttps:/www.dna-synthesizer.de/company/PolyGenhttp:/www.polygen.de/index.html韩国Bioneerhttps:/Copenhagen A/Shttp:/tagc.dk/日本瑞翁医疗株式会社https:/www.zeonmedical.co.jp/c/信息来源:深圳华大生命科学研究院提供,基因慧整理当前,柱式合成仪单批次合成通量最高可达 1536 条寡核苷酸,最长合成长度一般在 150-200 nt。受到每步合成效率的影响,超过该长度以后,副反应和合成效率会显著影响寡核苷酸的序列准确性与产率。产量一般在 0.51000 nmol 水平,合成错误率约为 1/1000 nt,成本为 0.05-0.5 元/nt。尽管 1536 通量的一代柱式合成仪的合成时间和效率,较早期低通量型号设备已有较大提高,但无法从根本上解决单碱基合成成本高的问题,难以满足面向高通量基因合成的需求,例如大规模捕获探针合成、基因合成、DNA 存储等。引入革命性创新技术,提升通量降低合成成本,成为全球当下迫切需要解决的难题。为满足不同的合成需求,擎科生物在耗材生产和仪器制造上都进行了以下产业布局:在原材料中,擎科生物自建 DNA 合成原材料的化学工厂,凭借雄厚的研发实力,开发了 DNA基因慧 63版权所有侵权必究二、技术:DNA 存储的技术流程与进展合成试剂、合成单体、修饰单体与 CPG、条状分子筛、合成柱等一系列产品,可提供产品种类达200 余种,合成原料年产量达 200 吨。使用自产原材料,确保基因合成质量的同时更有效降低合成成本。在合成仪中,擎科生物使用的自主研发生产的关键反应装置 CPG,其孔道均一、不易堵塞、溶剂利用效率高、产品参数更稳定,极大降低了 DNA 合成过程中因固相管道堵塞造成的反应终止,保证了 DNA 合成生产的稳定性。打液模块超细管脚孔径,打破了国外保持的 5ul 最小体积量。基于擎科基因合成产业链产品的使用,40bp 单根合成仅试剂成本可节省高达 42.2%。与此同时,擎科生物作为国内唯一一家集设计、合成、组装、检测为一体的 DNA 合成全产业链高科技企业,深耕长片段合成及测序技术的研发优化,开发的高品质快速基因合成技术,包含从序列优化、引物设计到小片段合成、大片段重组等多个流程,在大片段组装前后同时进行Sanger 测序及 Fast NGS 测序验证,保证合成片段的准确性。在快速基因合成技术的基础上,开发出超长片段快速基因合成技术,可生产长达 160Kb 大片段 DNA。目前,擎科生物已经建立起 20Kb的长片段基因交付生产线,依靠长期技术积累,可实现月产量 1000 条的规模化大片段基因合成的交付。2)二代高通量芯片合成仪芯片合成仪,即以芯片为DNA合成载体。单张芯片可实现成千上万条长度不等的单链DNA合成。该类型设备可在提供高通量合成的同时降低试剂的消耗,初步实现低成本高通量的寡核苷酸合成。目前国外在高通量芯片合成仪的技术与市场布局较早,积累了超过 10 年的经验。相比一代柱式合成仪,二代高通量芯片合成仪的通量高、成本低;但目前市场上仅提供技术服务,还没有商业化的仪器。目前国际上的高通量合成仪,根据其合成原理主要包括五类(如下表):表 15:二代高通量芯片合成仪代表性公司概览代表性公司国家发布年份技术原理错误率优点缺点LC-Sciences美国2006光化学5-10合成通量较高,单芯片合成通量 4-30K;试剂消耗量少,单碱基合成成本较低。合成效率有待进一步提升;微流控芯片设计加工制作复杂。基因慧 DNA 存储蓝皮书64版权所有侵权必究代表性公司国家发布年份技术原理错误率优点缺点Custom Array美国2011电化学3-12合成通量高,单芯片合成通量12-90 K;试剂消耗量少,单碱基成本低。合成稳定性差,错误率 高;芯 片 集 成 度高,加工复杂;仅适用于寡核苷酸库合成。Twist Bioscience美国2013喷墨打印5合成通量高,单芯片通量可达百万;合成稳定性较好,错误率较光化学及电化学原理低。单条寡核苷酸合成产量极低Evonetix英国2016集成电路控制不详合成通量很高,扩展提升相对简单方便,官方宣称可达亿级;可实现原位组装和纠错;暂未发布设备,实际应用效果有待观察。试剂消耗量较大,物料和时间成本并不占优势;芯片集成度很高,加工复杂。华大中国2020基于分选的高通量并行合成1-3合成通量较高,可达万级,扩展相对简单方便;合成质量稳定,错误率低;芯片加工简单,且可重复使用,单碱基成本低;产物形式灵活,可单条交付或寡核苷酸库交付。芯片物理兼容性有待进一步提升。信息来源:深圳华大生命科学研究院提供,基因慧整理 光化学法 DNA 合成仪例如 LC Sciences 公司基于光脱保护原理的高通量 DNA 合成仪采用数字化光源投影技术,提供电脑可控的高分辨率多点平行光源,将特定频率的光精确地投影到反应位点,通过是否光照来控制各个反应位点是否进行脱保护反应,从而控制每个位点合成反应的是否进行。通过利用微流控技术,实现合成过程中所需单体等试剂的精准输送。较一代合成仪,光化学法合成仪的试剂消耗量少,单碱基合成成本低。但目前单循环得率在 98.5%,反应效率不适合较长 Oligo 的合成,且微流控芯片加工制作复杂,合成通量较难大幅提升,需要从脱保护效率及光控系统的精确度上进行优化改进。LC Sciences 的母公司联川生物针对该痛点,自研第二代高通量微流控原位合成仪器,填补国内自主产权二代 DNA 原位合成仪器的空白。并基于此搭建了 Paraflo 微流控原位高通量合成服务平台,成为国内少数几家具备自主合成基因芯片和超高通量 DNA 能力的公司。联川的核心技术是光敏酸介导 Paraflo 微流控原位合成技术(Gao et al.2001;Zhou,X.et al.2004),采用全球首创光生酸合成方法及精准的数字光印刷技术,在自行设计加工的Paraflo 微流控芯片上一次性合成数万条寡核苷酸,形成独有的技术壁垒,在第二代合成平台基因慧 65版权所有侵权必究二、技术:DNA 存储的技术流程与进展中占据一席之地。目前该仪器可以在 2.5cm*4 cm 大小的芯片上一次性合成数万条 DNA,合成 DNA 长度达到 200 nt,均一性良好;在载玻片大小的基质上同时合成数十万条 DNA,仪器性能已经可以初步满足 DNA存储、基因捕获测序、基因合成等高通量 DNA 的主要应用场景。基于该技术已提供芯片检测服务、Oligomix 产品、NGS 基因捕获探针产品、抗体库合成及其他定制化服务。图 30:联川 Paraflo 微流控原位合成技术数字化平板照射光敏酸脱保护原理数字光刻法微流控原位合成原理微流控芯片试剂仓添加单体脱保护冲洗DLPPhotoGenerateAcidOFFOFFONON加光敏酸芯片表面数字光掩膜光生酸5 羟基暴露偶联-盖帽-氧化下个碱基循环DMD信息来源:联川生物整理此外,联川生物基于微流控芯片技术的超高通量 DNA 合成平台也已和相关合作企业开展研发测试,待生产工艺成熟稳定后即可进入测试阶段,预计 2-3 年内可正式商业化应用。基因慧 DNA 存储蓝皮书66版权所有侵权必究电化学法 DNA 合成仪例如,Custom Array 公司基于电化学原理的高通量 DNA 合成仪是目前唯一被商业化的高通量芯片 DNA 合成仪。合成反应已缩小到微米级别的反应孔内,一张芯片的合成池上有上万个反应孔。通过电化学脱保护的方式,既减少了原料的消耗也提高了合成通量,大幅度降低单碱基成本,通量高达 12000 至 90000 条,但缺点是合成错误率高、产量低,准确率低且不稳定,合成通量的灵活性低。Custom Array 于 2017 年被金斯瑞收购,停止销售该款合成仪,转而提供商业合成服务。未来,若能在芯片设计与加工工艺方面进行设计与优化,最大程度避免氢离子串扰的问题,则有望进一步提高合成质量。2021 年末,微软(Microsoft Research)联合华盛顿大学在学术期刊 Science Advances 上报道了基于微纳电极阵列的电化学 DNA 合成芯片,这项工作通过 130 nm 光刻工艺,将微电极阵列的位点尺寸减小到亚微米级,从而将位点密度推进至每平方厘米 2500 万单位,并有效实现了位点间的交叉干扰。这是当今世界上高密度 DNA 合成阵列芯片的最高水平,然而,目前这项工作还处于研发阶段,未见相关专利或产品面世。喷墨打印法 DNA 合成仪Agilent 公司最早实现利用喷墨打印原理进行 DNA 合成,随后,Twist Bioscience 公司 进一步改进了合成芯片设计,并开发了高通量 DNA 合成仪。该技术利用高速的微量喷墨打印作为单体等试剂的输送方式,在特殊处理的三级微米级的硅基通孔上合成寡核苷酸,可实现上百万条寡核苷酸的高通量合成,再利用匹配的反应器与这些微孔对接,实现原位的 DNA 拼接和组装,从而直接得到大量的长片段的 DNA 分子。在国内市场,迪赢生物利用半导体行业工艺对 3D 喷墨打印技术进行了独立研发,突破了微米级芯片表面图案化处理,二代合成化学优化和 Flowcell 控制等关键核心技术,成功开发出了自主知识产权的 3D 喷墨打印超高通量原位 DNA 合成平台,合成长度更长、成本更低、错误率更低。每个碱基的合成成本比传统合成低 3 个数量级以上,错误率低于 1/1000。喷墨打印法合成仪集成了微流控技术、半导体加工技术和分子组装技术等一系列前沿技术,其技术的实际成本和效率在全球范围内处于较为领先的水平。由于合成通量依赖芯片反应位点数量,如若需要进一步提高芯片反应位点密度,则需要依赖更为复杂的半导体精加工技术以及可实现针对高密度反应位点的超高打印精度喷头,实现难度较大,因此其成本进一步下降的难度较大。此外,由于其微量生化反应体系,DNA 合成产物的载量仅能达到 fmol 水平,需要通过以扩增的方式提升载量,但难以达到 pmol-nmol 的水平。基于集成电路控制原理的 DNA 合成仪Evonetix 公司开发基于集成电路控制原理的高通量 DNA 合成仪,是通过在具有特殊设计的大基因慧 67版权所有侵权必究二、技术:DNA 存储的技术流程与进展规模可寻址的合成位点的封闭腔室内,加入低熔点的可反复加热的阻断材料,利用电路信号控制每个位点的通电与否进行位点加热控制。在加热情况下,该位点上的特殊材料可吸附在该位点阻止后续通入的试剂在该位点上反应,如果后续需要在该位点进行合成,可用溶剂将该材料清洗掉,使得该位点暴露出来以进行合成反应。Evonetix 公司的关键技术是理论上接近十亿个位点的 Oligo 合成和可实时监测的高保真 DNA纠错组装技术。该技术还处于研发和未公开阶段,实际应用效果还有待验证。基于分选的高通量并行合成原理的 DNA 合成仪深圳华大生命科学研究院基于分选的高通量并行合成原理自主研制 DNA 合成仪。其原理是,按照预合成序列信息将带有特殊标记的芯片合成载体,快速移动并依次排列,集合到相应的反应腔室中进行碱基合成延伸,反应结束后回收芯片进入下一个合成循环,直至序列合成完毕。该技术原理的优势包括:芯片加工工艺简单:无需复杂的微阵列芯片加工工艺,可重复使用,对成本控制有利;合成通量拓展灵活性大:通量取决于合成载体和反应腔室大小,通量提升不依赖于加工工艺;载体组合灵活:利用带有特殊标记的芯片合成载体,可灵活组合合成完毕的载体 反应产物既可混合,也可单独分离目前最高通量达十万级,在错误率(1-3)及合成载量(pmol级别)方面具备突出优势,有望快速实现合成成本的指数级下降。由于芯片在连续分选和物理转移过程中会产生表面磨损,进而影响芯片的可识别性,因此未来需要从芯片选材及结构加工上进一步提升其物理兼容性。2.3.1.3 化学合成技术面临的行业痛点及解决案例经过三十多年发展,DNA 的化学合成仍然有以下痛点需要突破:Oligo 合成的长度越长难度越高化学合成 DNA 的错误率远高于活细胞内的 DNA 复制和 PCR,每单个合成循环的错误率约为1/100,且随碱基数目增加而增加。第一种情况是碱基缺失(N-1、N-2),主要原因是化学反应不可能达到 100%,随着链的延长,目标序列含量不断降低。第二种情况是 oligo 分子中存在 G-偶联或单碱基插入(N 1)同时又存在单碱基缺失(N-1)时,此条 Oligo 的长度与目的片段的长度相同,因此无法通过纯化将此“失败序列”去除。Oligo 合成的这些固有“通病”,也导致了 Oligo 合成长片段的能力止步于 300 nt 左右,也是目前对于更长片段的基因合成仍需要人工去拼接、耗费精力去挑取正确的主要原因。基因慧 DNA 存储蓝皮书68版权所有侵权必究 不同应用市场对 Oligo 的多样化定制需求无论是合成的生产工艺流程和 QC 方法,均单一而固化。但由于 2020 年的新冠疫情而促使分子诊断 qPCR 检测、核酸类疫苗药物的快速爆发,以及精准医疗对于高通量测序技术的广泛应用。不同的应用场景对 Oligo 的质量标准提出了更高的需求。这里举三个例子:1)用于 qPCR 的荧光探针,要求更高的灵敏度、更准确的浓度一致性、更高的纯度和更高标准的生产环境;2)用于高通量测序技术的建库接头,需要严格控制接头与接头之间的交叉污染率;3)用于高通量测序技术靶向捕获的探针,需要更高的Biotin标记效率、更高的覆盖率和均一性。这些都给 Oligo 合成定制服务公司带来了新的挑战。在高通量合成和大规模合成上找寻平衡点前文已述,柱合成法的 Oligo 合成,虽然能解决单条 Oligo 的大量合成,但其最大合成通量仅1536;而芯片 DNA 合成,虽然能在一张芯片上合成万以上级的 Oligos,但单条 Oligo 的产量极其微量,尽管可以通过 PCR 或体外转录的方式去进行产量放大,但这种方式带来的不均一性可能会影响最终的应用效果。尤其是芯片合成所得到的成千上万条 Oligos 只能混合在一起,而不是真正得到各自独立的“单条 Oligo”。针对上述的行业痛点,首先,提升长片段 Oligo 合成能力的核心来自提升化学合成的耦合效率和纯化工艺两个层面。以生工生物为例,一方面建立合成研发中心,持续进行 Oligo 合成生产工艺的优化;建立原料合成实验室和试剂生产工厂,对核心上游原辅料,如 CPG、合成单体、修饰原料和溶剂等,进行自主研发生产。使合成中的各个环节能有效控制,将耦合效率提升0.2%0.5%,可大幅提升长片段 Oligo 的合成质量。另一方面,在常规反相 HPLC(RP-HPLC)纯化的基础上,增加离子交换 HPLC(IE-HPLC)。IE-HPLC 基于相对电荷差将全长引物从截短的引物中分离纯化出来,可以有效去除 N-1 短片段。通过结合 PAGE、RP-HPLC、IE-HPLC 和膜过滤等多种纯化方式,可极大提升超过 130 nt 长片段Oligo 的纯度和质量。其次,国产 Oligo 合成的自动化程度与国外相比仍有一定的差距,目前国外以 IDT 为首的头部企业已具备生产高度集成自动化。国内企业则以生工生物为代表,Oligo 合成的自动化程度已达到70%以上,基本实现了独立的模块工序自动化。预计在未来 2-3 年内,生工生物将开始进行 Oligo合成各工序间的集成自动化软件和硬件的开发,通过管道输送连接来实现从原料投放、半成品生产和成品分装一体的无人工参与的超级 Oligo 合成生产线。除生工生物以外,擎科生物、联川生物、华大智造也正积极打造全自动化生产线。其中,擎科生物搭建的基因合成全自动化生产线已经实现从客户下单、引物序列导入、合成、到纯化、组装、组装产物纯化等一系列步骤的自动化生产。合成设备集成化、机械化、智能化、模块化的操作有效减少人工作业,不仅降低了基因合成成本,批次间的稳定性也得到了有效的保障。基因慧 69版权所有侵权必究二、技术:DNA 存储的技术流程与进展图 31:擎科生物自动化生产线信息来源:擎科生物整理而联川生物也在着手搭建柔性自动化控制系统,旨在解决 DNA 合成劳动密集型问题,包括硬件及软件的研发。通过算法、模型学习等手段开发高效 DNA 设计软件,引入机械臂、工作站等装置,佐以信息化控制系统,打通从DNA设计到寡核苷酸合成,再到中片段-长片段基因合成的关键环节,提升自动化水平。华大智造提供单个的自动化工作站和全流程的自动化产线。针对 Oligo 合成各工序间的集成自动化,华大智造可提供基于自动化样本制备系统 MGISP-960 的自动化工作站,可以实现基因合成流程包括液体配制、基因组装 PCR 反应、PCR 产物纯化、产物均一化、基因克隆连接反应等多个步骤的自动化。针对 DNA 存取集成自动化,华大智造拟采用工位流水线设计理念,基于自动化产线 MGIGLab 整合多款不同功能的仪器在同一流水线上。无论是单个的自动化工作站,还是全流程的自动化产线,华大智造都有配备完善的实验室信息化系统,对整个实验流程的样本、试剂和耗材信息进行管控,从而实现全流程的自动化监测、生产调度和信息追溯等。图 32:自动化产线 MGIGLab信息来源:华大智造整理基因慧 DNA 存储蓝皮书70版权所有侵权必究2.3.2 酶促合成2.3.2.1 基本原理传统亚磷酰胺化学合成法受化学反应效率限制,DNA 合成产物长度仅能达到约 200-250 nt,极大地限制了下游应用。合成过程中涉及强酸、强氧化剂,产生较多对环境有害的化学废液,导致后续处理费用高昂。而近几年出现的生物酶法 DNA 合成技术通常在水相环境下进行,可有效避免上述问题,并有望以更低的成本合成更长的 DNA 分子。在自然界中,DNA 分子的体内合成主要是由各种 DNA 聚合酶催化并依赖于 DNA 模板进行合成。DNA 末端转移酶和一些种类的 DNA 聚合酶却可以不依赖于已有的 DNA 模板分子,直接催化 DNA 链的合成。而生物酶法 DNA 合成技术也借鉴了自然界中的不同 DNA 合成方式。图 33:左:体内 DNA 依赖模版的合成;右:DNA 末端转移酶的合成原理信息来源:online-et al.,Nature Communication,2019(右)2020 年 10 月,知名学术期刊 Nature Biotechnology 在题为“Enzymatic DNA synthesis enters new phase”的报道中提到,一些新创公司把酶促合成作为更快且更高效合成长链 DNA 分子的新技术手段,同时极大地降低了合成和 DNA 链的组装成本。发展基于生物酶的 DNA 合成新技术,并结合同源重组等体内组装方法,可以使寡核苷酸合成长度和准确度提升数个量级,这将极大地提高利用合成生物学设计与构建的能力。同时,这一技术也会促进如 DNA 数据存储和新材料的设计制造等新兴领域的重大突破。与 DNA 化学法合成相比,生物酶法合成潜力巨大,有望在合成长度、成本及产量方面实现显著提升。2.3.2.2 酶促合成技术举例1)TdT 酶介导的酶促合成反应TdT 酶介导的酶促合成反应是目前酶法合成 DNA 的研究热点。自 2013 年以来,三家以 TdT 酶基因慧 71版权所有侵权必究二、技术:DNA 存储的技术流程与进展为基础的 DNA 合成公司:Molecular Assemblies,DNA Script 和 Nuclera 相继成立。TdT 是一种非模板依赖性酶,通常以随机方式延伸 DNA 链,可将四种天然碱基加到 DNA 链的 3端。TdT酶介导的酶促合成反应是通过修饰核苷酸分子,化学合成带有可逆终止基团的核苷酸单体,然后利用 TdT 酶将碱基不断添加到所合成序列的末端。基本原理是通过化学反应控制核苷酸分子上的化学修饰基团,使得该酶每次只能延伸目标单碱基,随后除去终止基团并开始下一个目标碱基的合成,最终实现控制 DNA 链中目标碱基的有序连接(如下图 34)。图 34:TdT 酶介导的酶促合成反应活化状态(a)(c)(d)脱保护带保护基的核苷酸蛋白工程改造的 TdT 酶TCEP 或者 DTT稳定状态TdT 酶法合成循环Molecular Assemblies 合成单体修饰基Nuclera 合成单体化学修饰基团DNA Script 合成单体化学修饰基团信息来源:参考 Keasling et al.,Nature Biotechnology,2018如何控制反应的启动与终止,实现某一特定序列的片段合成,是利用该酶促反应实现从头合成 DNA 的关键问题。此外,酶促反应的催化效率、酶对修饰单体的特异性以及单体的特异性添加基因慧 DNA 存储蓝皮书72版权所有侵权必究问题,亦是难点。鉴于 TdT 酶对其所修饰的基团要求极高,该方法前期投入较大,需耗费大量的人力和物力进行蛋白质改造研究及化学修饰基团筛选。2)TdT-dNTP 交联体介导的酶促合成反应由 Dan Arlow 和 Sebastian Palluk 等人于 2018 年共同成立的 Ansa Biotechnologies 公司,针对 TdT 酶难以接受修饰核酸的问题,提出了 TdT-dNTP 交联体介导的可逆终止合成法。其基本原理是,首先将 TdT 酶与单独 3端带可逆接头的脱氧核苷三磷酸结合,形成 TdT-dNTP 交联体,在 DNA 合成过程中每当新合成链的 3端暴露出来时,该 TdT-dNTP 交联体连接到链的 3端,新目标碱基也随之被引入。同时,TdT 酶也继续停留在 3端上阻碍别的单体继续添加(如下图 35)。图 35:TdT-dNTP 交联体介导的酶促合成反应原理 DNA引物下一循环脱保护延伸断裂试剂TdT-dNTP 交联体TdT-dNTP固定 dNTP信息来源:参考 Keasling et al.,Nature Biotechnology,2018与 TdT 酶介导的生物酶法合成相比,该策略不用进行前期的 TdT 酶蛋白工程改造和碱基单体的改造,通过简单的方式将酶与碱基单体结合,起到在保证酶活性和效率的同时,实现碱基单体的保护与可逆终止。然而由于要先将 TdT 酶与核苷酸偶联,导致 TdT 酶消耗量更大,一定程度上可能增加合成成本。基因慧 73版权所有侵权必究二、技术:DNA 存储的技术流程与进展3)混合酶介导的酶促反应成立于 2016 年的英国公司 Camena Bioscience 利用特定组合的酶在三核苷酸异构体中实现无模板的 DNA 合成。这种从头酶促合成和基因组装技术叫 gSynthTM。其基本原理是,每条引物的 3端都由可逆终止核苷酸(rtNTP)组成,包含特定组合的酶或有末端转移酶活性的核糖酶,通过不断的重复延伸,合成 300 nt 长度的引物(图 36)。对比同为300 nt 长度碱基的合成片段,因其减少了从头合成逐步连接的步骤,故准确率较化学法合成有明显提升。图 36:(a)Camena 公司的核苷酸单体结构式(WO2018152323A1)(b)gSynthTM 原理示意图(WO2019140353A1)3-氧-(2-硝基苄基)-2-脱氧腺苷三磷酸特定组合成 16 nt几何递增法合成(b)(a)8 nt引物固定在固相载体上信息来源:深圳华大生命科学研究院整理Kern Systems 公司于 2020 年初,利用自己特有技术与平台从头合成了 2.7 Kb 长度的质粒(pUC19),证明该方法具有实际应用价值,未来可应用于蛋白改造及微生物菌株构建等领域。此外,Kern Systems 公司则从 DNA 存储的应用需求出发,采用一种免修饰的策略。该方法利用了两种酶之间的竞争。首先 TdT 酶将核苷酸整合到 DNA 链末端,此时体系内存在另一种酶三磷酸腺苷双磷酸酶作为核酸降解酶,可以使体系中核苷酸浓度降低导致无法进行新一轮的合成。该方法不能严格控制每一步的碱基添加数量,可能会导致合成错误率较高,但通过加入特定冗余及纠错机制等方式,这一方法的合成产物只适用于 DNA 存储。迄今为止,以上提及的 6 家酶促合成公司先后已获得超过 4 亿美元的融资,但整体仍处于概念验证阶段,尚未达到大规模商业应用水平。在中国,中国科学院天津工业生物技术研究所、湖南大学、上海交大、中科院深圳先进技术研究院等科研院校的研发团队在生物法合成方向均有所布局。基因慧 DNA 存储蓝皮书74版权所有侵权必究2.3.2.3 酶促合成法相关企业DNA Script 基于生物酶技术,于 2020 年推出了世界上首台桌面型 DNA 酶促打印机。根据 DNA Script 官网(https:/DNA 酶促打印机的单孔产量可达 200 pmol,单步反应效率高达 99.5%,合成过程中无需有机试剂,比现有化学法 DNA 合成仪器更环保,可大大提升 DNA 合成的普及性。2021 年 2 月份,DNA Script 获得 Baseclick 公司授权售卖含该公司试剂的试剂盒,从而使用户可通过点击化学(Click Chemistry)进行修饰引物的合成,借此加快分子诊断研发进程。此外,如 Molecular Assembly、Ansa Biotechnologies 等公司也在积极研究新的酶法合成技术,期望打破现有化学法合成的技术壁垒,以生产出长序列、高质量、序列特定的 DNA,但均暂未见配套仪器。表 16:主流酶促 DNA 合成公司概览公司国家成立时间合成策略优点缺点Molecular Assemblies美国2013TdT 酶介导的酶促反应,修饰后的核苷酸可通过添加特定化学基团的试剂来终止反应准确性较高因需要同时保证酶效、单体与酶的结合率、保护基的阻断率及脱保护率,化学修饰基团筛选和蛋白质筛选改造难度大Nuclera英国2013DNA Script法国2014Camena Bioscience英国2016基于三核苷酸异构体及特定组合的酶准确性较高因制备工艺流程复杂,涉及多步反应,制备成本高Ansa Biotechnologies美国2018TdT 酶与核苷酸偶联避免TdT酶与修饰核酸结合的难点TdT 酶消耗量大Kern Systems美国2019通过添加可与 TdT 酶竞争的三磷酸腺苷双磷酸酶免修饰策略无法严格控制碱基的添加与终止,合成错误率较高信息来源:深圳华大生命科学研究院提供,基因慧整理2.3.3 连接合成由于DNA存储目前通常采用按需合成,即每次需存储的数据在进行“比特-碱基”编码转换后,将得到的DNA序列以寡核苷酸文库或 DNA片段形式从头合成。而在针对大量数据的存储需求方面,现阶段该方式需要投入的合成成本极高。因此,不少研究者或企业也提出了预先合成短 DNA 序列基因慧 75版权所有侵权必究二、技术:DNA 存储的技术流程与进展单元,在信息存储时将短序列单元进行定位选择,并按顺序连接起来的信息写入(合成)方式,即连接合成。2.3.3.1 基本原理连接合成需要预合成一系列的 DNA 短序列单元,这些 DNA 短序列单元将通过映射编码的方式对应字母、汉字或任意二进制信息,每个单元留出粘性末端(或接头)用于后续连接反应。需要存储信息时,从预合成库中选取对应的单元,并通过连接反应、PCR 组装等方式将这些单元按需要存储的顺序进行连接成为长片段。该技术的优势在于尽管前期需要合成大量的 DNA 短序列单元库,但这些单元可以进行多次复用,因而在大量数据的存储方面具有一定的成本优势。同时,短序列的合成错误率较低,且产量高,因而也可以提升 DNA 存储的准确性。图 37:基于预合成 DNA 组装原理的 DNA 存储流程Blocks libraryconvertTAGCTTAACGCGTATGACATCGCA11123452233445122334455ATTTTTTTTTTAAAAAAATAGCATTACCAGGTATGCACCATCTAGCTAACCAACACCACTAGAGCT TAGCTAATCCGGAACTTGTGGTGTsynthesizeupstreamdownstreamAdapters libraryAdding adaptersComposingAssembling华华华华大基因基大因大大基基因因AAAAAAAAAAAAAAAATTTTTTTTTTTTTTTT信息来源:深圳华大生命科学研究院专利 WO2017190297A12.3.3.2 原理验证基于连接合成进行 DNA 存储的研究团队或企业目前并不多。深圳华大生命科学研究院在 2017 年实现了连接合成的原理验证,并完成了其在文本存储的专利申请,于 2021 年获得授权。该专利的基本原理为首先将文字(汉字)与 DNA 序列进行一一映射并预先合成为双链 DNA,成为基本模块(block)。每个 block 都带有一个碱基的末端,可以与设基因慧 DNA 存储蓝皮书76版权所有侵权必究计好的 adapter 相连。存储过程过,利用 adapter 的同源性,通过 OE PCR,Gibson 组装等方式进行长片段的合成并最终得到目标序列。美国 Catalog 公司在 2019 年宣布使用预先合成的 DNA 序列进行组装,存储了 16GB 大小的维基百科。他们利用预先合成的长片段 DNA 进行拼接(具体流程不详),在研制的高通量装置中进行并行反应,其公布的组装过程中的信息写入速度可达 4Mbits/s。中科院武汉病毒所刘翟团队也利用“活字喷墨”原理制造了“毕昇一号”DNA 存储原理样机。主要原理是通过喷头将预先合成的 DNA 片段(活字块)转移到目标合成点阵上,并进行后续组装或混合操作。基因慧 77版权所有侵权必究二、技术:DNA 存储的技术流程与进展2.4 DNA 封装(存储信息保存)DNA 分子的保存是 DNA 存储中的重要环节,尽管 DNA 分子生化稳定性高,其半衰期可长达 521年,但暴露在空气中的 DNA 极易被 DNA 酶降解。在长期保存中,DNA 分子也可能发生化学键的断裂、碱基的突变(如脱嘌呤)等损伤,因此随着分子链的长度增加,其半衰期也显著降低。从封装的形式上,可分为物理封装(即通过低温密封、矿化、无机物密封、固体胶囊等形式进行封装)和生物封装(即将 DNA 分子通过不同形式存储在活细胞内,并进行传代或低温保存)两种。本节将对各种封装技术进行总结阐述。2.4.1 DNA 物理封装2.4.1.1 干粉/溶液的低温保存DNA 溶液和干粉的保存稳定性略有差别。由于 DNA 水解的风险,DNA 溶液在室温下可以稳定存储期最多为半年,而经过-20 C 的冷冻,其保存期限(或 DNA 分子稳定存储的时长)可延长至两年。为了维持 DNA 结构/序列的完整性,避免 DNA 大规模断裂和降解,DNA 的较佳保存方法是干粉,-80C(或者液氮低温保存)。但低温冷冻保存不仅占用的空间大,需要购置超大的低温装置,而且样品量大时需要配套的管理系统,分摊到单个样本的保存成本将增加。也有科学家提出利用极地的低温特性,建设自然保护库来降低维护成本,而极地的基础设施、配套设备的建设代价也十分昂贵。最重要的是低温保存无法对 DNA 样本提供绝对安全的长久保存,只是延缓 DNA 氧化和水解的过程。考虑 DNA 的冻干干粉的保存时间更为持久,科学家开发了多种针对 DNA 干粉的保存方式,其中 Biomatrica、海藻糖和聚乙烯醇等 3 种材质的孔板有利于 DNA 分子的稳定保存。DNA 干粉也可以吸附并保存在一种特殊的滤纸(US5807527)中,保存期限可长达 3 年。近年来,科学家们还发现,一些碱土金属盐也可以增强 DNA 干粉状态分子的稳定性。但另一方面,Fe2 ,Cu2 等金属离子也有可能通过芬顿反应(Fenton reaction)产生自由基,从而引发 DNA 分子的损伤。近期,DNA 干粉也可以被存入特殊材质的固体胶囊中。以 Imagene 公司的特殊胶囊为例,该公司开发了一种在室温下长期保存生物样品的方法,通过密封胶囊,将其内部的 DNA 干粉限制在无水和缺氧的环境。预计在 25 C 的状态下,DNA 分子的降解速率常数相当于约 100,000nt 每百年发生一次断裂,其稳定性比现有的商业化工艺大几个数量级。基因慧 DNA 存储蓝皮书78版权所有侵权必究图 38:固体胶囊保存信息来源:Bonnet,Biopreservation and biobanking,2017此外,美国 SecuriGene 公司也利用特殊胶囊的形式对 DNA 进行长期保存,如下图所示。同时,该公司也推出了面向长期保存 DNA 样本的“DNA 银行”服务,在保存如特殊胶囊前,对 DNA 进行纯化以保证 DNA 的质量与保存活性。保存过程中,不用低温冷冻,特殊胶囊的设计可以保证 DNA分子不受冲击、UV、湿度等影响,从而达到长期保存的目的。图 39:SecuriGene 特殊胶囊Precision-crafted from a solidShock-resistant Borosilicateglass chamberTriple-sealed design to keepmoisture outExtracted,purified&preservedDNABuilt-in humidity regulatorblock of 316L surgical-gradestainless steelImpact&UV resistantRemovable capIndividually engraved信息来源:SecuriGene 官网2.4.1.2 DNA 分子的矿化利用 DNA 自组装纳米结构,可以使 DNA 分子与其他材料一起实现封装保护,以实现精准的生物矿化。如图所示,上海交通大学研究团队利用核酸框架结构为模板和静电吸附作用为驱动力,成功地制备出几何形状高度可控的磷酸钙纳米晶体,可大大提升 DNA 分子稳定性。基因慧 79版权所有侵权必究二、技术:DNA 存储的技术流程与进展图 40:磷酸钙纳米晶体的制造Ca2 StabilizedDNA FrameworkDNA Framework-EncodedMineralization信息来源:Liu et al.,Chem,2017日本京都大学医学院细胞与材料整合研究所研究团队利用多重折纸结构,以特殊设计的形状在二维空间中放大折纸结构。他们使用DNA 发夹结构装饰拼图碎片的表面,以显示字母表中的字母。该方案可以随意调配组装顺序,从而灵活地存储信息,如下图所示。尽管该方法不是现在通常说的 DNA 信息存储,但对 DNA 存储的保存和矿化设计也有着借鉴意义。图 41:DNA 发夹结构装饰拼图信息来源:Arivazhagan Rajendran et al,ACS Nano,2011基因慧 DNA 存储蓝皮书80版权所有侵权必究2.4.1.3 DNA 分子的其他介质封装(纳米硅球/纳米颗粒)使用特殊壳体对 DNA 进行保存可以其不受核酸酶、氧气、紫外射线、电离辐射或者其他对DNA 分子存在毒性的化学产品。通过参考骨骼化石保存 DNA 的模式,科研人员模仿化石隔绝环境中的水分和活性氧,开发了一系列封装DNA分子的方法。其中DNA分子可以包裹在二氧化硅颗粒中,利用加速老化试验推测,其中的 DNA 分子可以保存数千年。瑞士科研人员 Grass 等人利用自组装技术,将 DNA 和聚乙烯亚胺交替包裹在磁性微颗粒表面,并在最外层包裹硅外壳,也可以实现高密度的 DNA 信息存储。图 42:DNA 和聚乙烯亚胺交替包裹磁性微颗粒NaNO,HCIH2O,ultrasound25,30 minPEI,MW 1200 H2O,ultrasoundStep 1DNA,150 basepair H2O,ultrasoundStep 23x repeat Step 1 and 21x Step 1 to obtain positive surface functionalizationTEOS,4 days H2O,Thermomixer RT,1100 rpmAfter encapsulationBefore encapsulation信息来源:Chen et al.,Advanced Functional Materials,2019基于上述研究成果,哥伦比亚大学研究团队使用 3D 打印完成了 DNA 封装的原理验证。如下图所示,研究人员通过 3D 打印,让一只兔子形状的小饰物包含了编码数字指令的 DNA。在实验中,他们培育了五代兔子,每次都从上一代剪掉一块,解码 DNA,得到打印下一个克隆的指令。数据的完整性在每一代的复制中都有所丧失,第一代兔子中缺失了近 6%的原始 DNA 序列信息,直到第五代兔子,总计有超过 20%的缺失。基因慧 81版权所有侵权必究二、技术:DNA 存储的技术流程与进展图 43:DNA 存储数据的兔子模型Binary stl fileab10011000111010100010111011010011101001001001001001DNA code stl fileEncodewith DNR tountainSequencing and decoding with DNA fountain DNA extractionDNA emcapsulationFilament extrusionPrinting of 3D objectDNA library:12,000 oligos x 145 ntstl file size:100 kB011001011101000.2 wt%DNA loadingSiO2SiO2100 ppm particles in PCL105 bunny file units per g PCLPCR信息来源:Erlich et al.,Nature Biotechnology,2020 2.4.2 DNA 生物封装2.4.2.1 质粒形式的生物封装将 DNA 信息以质粒形式封装的基本原理是:利用体外基因拼接方法将 DNA 插入片段与质粒DNA 在体外连接形成重组质粒导入大肠杆菌,重组质粒随着大肠杆菌的增值而复制,从而将 DNA信息封装在细胞内。2021 年,天津大学研究团队证明了利用质粒组装将超过 1E 4 种类的 DNA 片段文库,并进行混菌保存并可以稳定回收文库进行完美信息解码。如图所示,质粒形式的生物封装主要分为以下几个步骤:1.DNA 序列合成:获得用于携带编码信息的 DNA 序列,如前文所属,可以通过化学或酶促原理人工合成。2.重组质粒构建:利用体外拼接技术,如基于外切酶的 Golden Gate 组装技术,基于内切酶的 Gibson 组装技术,基于聚合酶的 PCA,OE-PCR 技术,合成获得的 DNA 片段与线性化后的质粒拼装在一起形成重组质粒。3.转化:用一些特殊方法(如:CaCl2,RuCl 等化学试剂法)处理获得的感受态细胞,其细胞膜的通透性发生改变,从而能够摄入外来 DNA。将重组质粒与感受态大肠杆菌细胞相混合,实现了重组 DNA 分子的转化。4.筛选转化细胞:目前作为载体的质粒多含氨苄或者卡纳抗性基因,重组后的质粒只有在基因慧 DNA 存储蓝皮书82版权所有侵权必究相应抗性即氨苄或者卡纳抗性的培养基中才能生长,而不含质粒的细菌则会死亡。5.菌株和质粒的保存:质粒可以在-20长期保存。菌株可在含20%-50%甘油培养液中-20或-80保存。图 44:质粒形式封装 DNAAmpicillinresistancegeneBacteria may take upplasmid with or withoutthe insert,or may nottake up plasmid at all.White colonieshave plasmidswith the foreigninsert.Blue colonieshave plasmidswithout insert.Bacterial genome ismissing the lacZ gene.Sticky endsPlasmidForeign DNARestriction sitelacZ gene信息来源:Biology,OpenStax,2016,https:/openstax.org/books/biology/pages/1-introduction 2.4.2.2 人工染色体形式的生物封装使用人工染色体封装 DNA 信息的存储模式与传统光盘存储具有相似性,即可实现一次写入,多次读出。因此,研究者将其称为“酵母光盘”。该方法将编码信息的长 DNA 片段进行人工合成/体外组装,通过细胞体内组装完成写入。该被写入的细胞被称作“母盘”,只要将载体细胞进行培养,可实现“母盘”的快速低成本地复制并完成均一的拷贝数据。与早期的光盘存储模式非常类似。虽然目前“母盘”的制作成本,即合成与组装成本较高,但信息的拷贝则可通过细胞培养实现,相比 DNA 分子库的存储模式,更具经济性。基因慧 83版权所有侵权必究二、技术:DNA 存储的技术流程与进展图 45:人工染色体形式的生物封装示例Sub-chunk 3Sub-chunk 4Sub-chunk 5Sub-chunk 2Sub-chunk 1Sub-chunk 6Video-1Video-2Video-3Pic 2Pic 1YAC backboneLinearVideo-4(BB17-BB24)(BB25-BB32)(BB33-BB40)(BB09-BB16)(BB01-BB08)backbone(BB41-BB48)80,000120,000160,000200,000240,000ACDB40,000Information(54,000 bits)Step 1 Error correction codingLDPC codeword(64,800 bits)Sparsified codeword(81,000 bits)Pseudo-random sequence(81,000 bits)Superposed sequence(81,000 bits)ATG.CGG(40,500 bp)Synthesis&assemblyEncodingpayloadKilobaseNEBMidRangeArtificialchromosome244 kbData242.5194.0145.597.048.515.0MediumCopy,extraction&sequencingDecoding&recoveryReleasedbackboneInsertion/deletion/substitutionStep 3 Superposition codingStep 4 TranscodingStep 2 Sparsified coding254,886 1NotlNotlCENARS107ARS306ARS108ARS109URA3CAT信息来源:Han et al.,National Science Review,2020如上图所示,天津大学研究团队报告了一种将数据信息编码写入 254886 bp 的存储专用染色体的案例。该项目存储了 37.8 KB 图片、视频以及文字,借助支持高鲁棒性、恢复快速寻址的编码方法(水印叠加编码方案)与低密度奇偶校验(LDPC)纠错编码,有效克服单分子测序的高错误率问题,实现了数据借助三代测序的快速可靠恢复。该工作突破性地将单菌内数据存储 DNA 数量提升到百 Kb 碱基对的级别。将编码 DNA 整合至宿主细胞染色体中亦可进一步提升编码密度。深圳华大生命科学研究院研究团队将使用阴阳双编码算法编码的莎士比亚十四行诗通过将一段 54Kb 长度的 DNA 片段整合至酵母基因组中,成功证明了 DNA 存储的信息密度可达到 432.2 艾字节/克,与之前的工作相比,信息密度显著提高 3 个数量级。2.4.2.3 基因编辑形式的生物封装除了上述方式,直接将携带信息的 DNA 片段通过基因编辑的方式插入活细胞的基因组内也是一种可行的技术手段。2017 年美国哈佛大学研究团队利用直接基因编辑的方式,将图片和短视频基因慧 DNA 存储蓝皮书84版权所有侵权必究通过 DNA 存储的方式存入了大肠杆菌,并成功将其读取恢复。其步骤与常规基因编辑手段类似,即利用 CRISPR Cas 系统将多个外源 DNA 序列插入大肠杆菌的基因组中的 repeater 区域。图 46:基因编辑形式的生物封装信息来源:Ping et al.,Gigascience,20192021 年美国哥伦比亚大学研究团队利用 CRISPR Cas 系统在电压不同情况下表现的特异性,将电信号脉冲写入细菌质粒中,实现了电学信号向生物信号的转换,从而可以通过二进制的方式直接在细菌质粒中写入信息。图 47:电学信号向生物信号转换过程信息来源:Yim et al.,Nat Chem Biol,2021基因慧 85版权所有侵权必究二、技术:DNA 存储的技术流程与进展由于外源序列在细胞体内有被识别并被降解或丢失的可能性,因此选择基因组上的如保守区域,或非活跃功能区域等进行外源 DNA 的插入也许可以降低信息丢失的风险。而通过基因编辑进行 DNA 分子的生物封装,可以将携带信息的 DNA 序列精确地插入基因组的任意位置,在 DNA 分子体内保存的稳定方面,也许有一定的优势。但使用基因编辑技术的门槛相对较高,同时也存在脱靶的可能性,因此在选择使用之前需要对数据存储需求以及分子生物学实验水平等进行综合评估。基因慧 DNA 存储蓝皮书86版权所有侵权必究2.5 DNA 测序(存储信息读出)DNA 测序是指,利用基因测序技术获得目标 DNA 片段的碱基排列顺序,即腺嘌呤 A、胸腺嘧啶T、胞嘧啶 C、鸟嘌呤 G 的排列顺序。而 DNA 存储的原理本质上是将数字文件的二进制编码(0、1)转换为 DNA 碱基的四进制编码(A、T、C、G)并通过 DNA 合成完成信息写入。因此,将存储在 DNA 片段中的信息读出,首先需要测定该 DNA 片段的碱基序列,即 DNA 测序。图 48:测序在 DNA 存储过程中的作用终端生化DNA待转换的数字信息转码 DNA 序列转码 DNA 序列被还原的数字信息编码合成测序解码A C C T A GT C A G C CC A G G A TT T A C G CT T A C G CA C C T A GC A G G A TT C A G C C信息来源:平质等,Chamaeleo:DNA 存储碱基编解码算法的可拓展集成与系统评估平台,合成生物学,2021从 1975 年 Frederick Sanger 发明的 Sanger 双脱氧链终止法至今,测序技术经历了近 50 年的发展。但从初步规模化到当今主流的大规模平行测序(Massively Parallel Sequencing,MPS)仅用了短短的十余年,包括但不限于:焦磷酸测序法(454 系列测序仪,后于 2007 年被罗氏收购,并于 2014 年停产)半导体测序法(Ion Torrent 系列测序仪,后于 2013 年被 Thermo Fisher 收购)可逆末端终止测序法(以 Solexa 测序技术为基础的 Illumina 测序仪)联合探针锚定聚合测序法(以 DNBSEQ 测序技术为核心的华大智造测序仪)基因慧 87版权所有侵权必究二、技术:DNA 存储的技术流程与进展图 49:测序技术发展历程信息来源:华大智造整理并制图本节将以 Solexa 测序技术和 DNBSEQ 测序技术为例,对测序原理进行详细介绍。同时,在主流的高通量短读测序技术之外,也有一些新兴的测序技术,比如单分子测序技术、显微测序技术等,在此也将做一定的延展性介绍。2.5.1 Solexa 测序技术Solexa 测序方法是1998年开发的,开发者是来自剑桥大学的三位化学家Shankar Balasubramanian、David Klenerman 和 Pascal Mayer。Solexa 测序系统以边合成边测序(Sequencing-By-Synthesis,SBS)作为基本设计理念,并以桥式扩增(Bridge PCR)和可逆末端终止子(Reversible Terminator,RTs)作为其核心技术。桥式扩增是指制备好的单链 DNA 文库,与芯片/流动槽(Flow Cell)表面的单链引物互补,一端被固定在芯片上,另一端随机和附近的另外一段引物互补,也被固定,形成“桥”。将桥型 ssDNA 扩增为桥型 dsDNA,再将桥型 dsDNA 变性释放出互补单链,锚定到附近的固相表面再形成 ssDNA。经过 30 轮扩增变性循环,最终形成约 1000 拷贝的单克隆 DNA 簇(即 Cluster),达到测序反应所需信号强度。基因慧 DNA 存储蓝皮书88版权所有侵权必究图 50:桥式扩增流程示意图图释:两端连接有接头(如图中金色和绿色所示)的 DNA 文库经由密集固定在芯片上的引物(引物的 5端借助一个柔性接头固定在芯片上)进行 PCR 扩增。这样扩增产物也会被固定在芯片上,PCR 反应结束之后,每一个模板克隆都包含有 1,000条模板产物。仔细检测模板浓度既可以保证在芯片上最大限度地携带 DNA 模板,同时也能避免模板过于拥挤的现象信息来源:Metzker,M.L.(2009).Sequencing technologies the next generation.Nature Reviews Genetics,11(1),3146.doi:10.1038/nrg2626在每轮测序反应中,Solexa 测序系统采用特异性荧光标记 4 种不同的 dNTP 与带有 DNA 模板信号的 DNA 簇进行聚合反应,由于这些 dNTP 的 3 端带有可化学切割的部分,每轮反应只能添加一个 dNTP,其他没有被结合的 dNTPs、DNA 聚合酶及荧光基团被移除,并开始新一轮的反应。这些 3 端带有可化学切割的部分的 dNTP 就是聚合反应的“可逆终止子”。在测序过程中,当带有荧光标记的 dNTP 参与聚合反应后,这一 dNTP 所携带的荧光信号可以通过激光激发和成像来识别,从而完成信号采集(即完成了 1 个碱基的读取工作),随后切割以利于下一个 dNTP 的聚合,如此循环往复,直至最终实现对模板 DNA 片段逐个碱基的测序。图 51:每轮测序循环反应的原理示意图拍照,收集信号X36-1514 种 FI-NTPs 聚合酶去阻断,切除荧光基团信息来源:Wikipedia,Sequencing_by_synthesis_Reversible_terminators 2007 年,Illumina 公 司 收 购 Solexa 公 司。2010 年 初,Illumina 公 司 将 Solexa 测 序 系 统Genome Analyzer IIx 升级为 Illumina 测序系统 HiSeq 2000。在随后的几年时间里,Illumina 陆续基因慧 89版权所有侵权必究二、技术:DNA 存储的技术流程与进展推出了 HiSeq 2500、HiSeq 3000/4000、HiSeq X,MiSeq、NextSeq 500/550、MiniSeq、iSeq 100、NovaSeq 5000/6000 和 NextSeq 1000/2000。目前,不少 DNA 存储案例都使用了 Solexa 测序技术。2017 年,哥伦比亚大学的 Erlich 团队利用 DNA 喷泉码编码并合成了 72,000 条短 DNA 单链,通过 Solexa 测序平台,对这些序列进行了测序解读,并恢复了原始数据。2018 年,微软的 Strauss 团队编码合成了 200 MB 数字文件,并利用不同扩增接头序列完成了随机访问,其解读平台也使用了 Solexa 原理。需要注意的是,基于桥式扩增技术中 DNA 模板复制原理,类似核裂变中的链式反应(1 个 DNA片段复制为 2 份,以 2 份为模板复制得到 4 份)。这种指数型复制方式的优点是复制速度很快,但以复制品为模板进行下一轮复制,过程中会产生复制错误并积累下来,可能会导致少量 DNA 信息出现失真。2.5.2 DNBSEQ 测序技术DNBSEQ 测序技术最早始于 2006 年 Radoje Drmanac 等人发明的 DNA 纳米球技术,早期主要通过 Complete Genomics 公司提供测序服务。2013 年,华大集团收购 Complete Genomics 公司,并组织了一批国内外高精尖人才进行科研攻关,将该技术进行转化开发,成功于 2015 年推出第一台具备中国自主知识产权的基因测序仪 BGISEQ-500,并于 2016 年实现规模化量产,同时成立专注全套生命数字化设备和系统解决方案的华大智造(MGI),并在随后的 5 年时间里陆续发布了多款不同通量的基因测序仪,包括MGISEQ-200、MGISEQ-2000、DNBSEQ-T7、DNBSEQ-Tx、DNBSEQ-E5等。DNA 纳米球技术包括 DNA 纳米球(DNA Nanoballs,简称 DNB)的生成、制备与加载。其中,DNB 的生成和制备主要采用了单链环状 DNA(single-strand circular DNA,sscirDNA)和滚环复制扩增(Rolling Circle Amplification,RCA):DNA 长链在超声波或酶的作用下随机打断后形成模板 DNA 片段,在接头作用下连接成一个圆环,即 sscirDNA;然后,该圆环通过滚动复制,复制生成的产物在空间上缠绕形成一个含有 300-500 份拷贝的纳米球 DNB;随后这些制备成功的 DNB 会被均匀地加载到测序载片(Flow Cell)上并附着、固定在预制的纳米级活化位点上,形成规则阵列(Patterned Array)。以单链环状 DNA 为模板的滚环复制扩增技术很好地避免了复制错误积累的问题,其扩增原理是:始终以原始的单链环状 DNA 为模版合成新的拷贝,全部拷贝在同一个位置上出现扩增错误的几率极小,同时也有效地避免了 PCR 扩增错误指数累计的问题。基因慧 DNA 存储蓝皮书90版权所有侵权必究图 52:DNB 的生成、制备与加载过程原理示意图测序芯片芯片上布满化学修饰位点每个位点可共价固定一个 DNA 纳米球DNBsDNBsDNA 纳米球滚环复制DNA 环形文库B.Load DNBA.Make DNB图释:以单链环状 DNA 为模板,在 DNA 聚合酶作用下进行滚环扩增,可将单链环状 DNA 扩增到 100-1000 拷贝,这一扩增产物即 DNB,这一过程即 DNB 的生成与制备(MakeDNB);DNB 在酸性条件下带负电,在表面活化剂的辅助下,通过正负电荷的相互作用,被加载到测序载片中有正电荷修饰的活化位点的过程,即 DNB 的加载(LoadDNB)。DNB 与测序载片上活化位点的直径大小相当,尽可能避免了多个 DNB 结合到同一位点的情况,确保了 DNB 的有效利用率。信息来源:华大智造整理通过规则阵列(Patterned Array),DNB 在测序载片上的活性位点中呈矩阵网格排列,所有活性位点间距保持整齐一致,每个位点只结合固定一个 DNB,可保证 DNB 之间的光信号不会相互干扰,从而保证了测序的准确度,同时也提高了测序载片的利用效率,实现了极好的成像效率和最优的试剂用量。这样的一张测序载片可以布置数十亿个活性位点。2021 年,华大智造推出了一种新的 DNB 制备与加载技术 MLG(Make DNB,Load DNB and Grow),能够实现对于 DNB 更加精准的控制,增加拷贝数并增强信号,支持更长读长的测序和更高质量的数据产出。不同于以往 DNB 在制备后直接将其加载到载片上、进行测序的方式,MLG 会先进行少量的滚环扩增,形成较小的 DNB(即 Make DNB),并在其加载到载片上后继续对其进行滚环扩增(Load DNB and Grow)。这一点有效确保了在更长读长的测序模式下,DNB 信号可以更强。图 53:华大智造测序原理之 MLG 技术示意图信息来源:华大智造整理在 DNB 加载至测序载片后,DNBSEQ 测序平台采用 cPAS 技术(Combinatorial Probe-Anchor 基因慧 91版权所有侵权必究二、技术:DNA 存储的技术流程与进展Synthesis,联合探针锚定聚合技术),将测序引物锚定分子和荧光探针在 DNB 上进行聚合反应,同时利用高分辨成像系统对光信号进行采集、读取和识别,从而获得单个碱基的序列信息,然后加入再生试剂、洗脱荧光基团,进行下一个反应、获得下一个碱基的序列信息。如此经过单端或双端50-150次循环(循环反应数视读长而定),最后经算法将碱基序列信息组合成为完整DNA序列。图 54:cPAS 技术原理示意图聚合拍照洗脱信息来源:华大智造整理DNBSEQ 测序技术正是以上一系列技术的集大成者,不仅包括 DNA 单链环化和滚环复制扩增 RCA、规则阵列 Patterned Array、MLG、cPAS 等关键核心技术,也包括华大智造基于分子共标签技术和高通量短读长测序技术开发的 stLFR 单管长片段建库技术(stLFR,single-tube Long Fragment Read)。通过 stLFR 技术,利用 DNBSEQ 测序平台既可以得到短片段 DNA 数据,也可间接得到长片段 DNA 数据(达到几十 Kb),并且能区别父源或母源的单体型序列,且能在单管中完成所有实验流程。2019 年建国 70 周年之际,华大通过自主研发的阴阳双编码将开国大典的珍贵历史影像资料转换成为 DNA 序列,保存在试剂管中。通过 DNBSEQ 测序平台对该试剂管中的 DNA 进行测序后,解码还原的视频与原始视频内容一致。图 55:对开国大典影像资料进行 DNA 存储测试信息来源:2020 小蛮腰科技大会报道基因慧 DNA 存储蓝皮书92版权所有侵权必究2021 年,华大团队针对自主研发的阴阳双编码进行了一系列的 DNA 存储数据恢复验证实验:通过稀释获得不同浓度的样品,并基于 DNBSEQ 测序平台对每组样品进行测序解读。实验结果证明,在平均分子数 100 的情况下,数据恢复率仍能达到 88%。该成果于 2022 年发表于 Nature Computational Science。图 56:基于 DNBSEQ 测序平台的 DNA 存储数据恢复验证实验设计信息来源:Ping et al.,Nature Computational Science,20222.5.3 单分子测序技术单分子测序的主要技术路线包括零模波导孔技术(Zero Mode Waveguides,ZMWs)和纳米孔(Nanopore)测序技术。该技术的特点是无需对 DNA 模板进行扩增,基于较长的读长(reads)可以实现对 DNA 分子的实时检测。其中,零模波导孔技术是由美国公司 Pacific Biosciences(以下简称 PacBio)研发。该技术采用光学模块,基于零波导孔,让光只能照亮固定了单个 DNA 聚合酶模板分子的纳米孔底部。零模波导孔是一个直径只有 1050 nm 的孔,当激光打在零模波导孔底部时,只能照亮很小的区域,DNA 聚合酶就被固定在这个区域。只有在这个区域内,碱基携带的荧光基团被激活从而被检测到,大幅地降低了背景荧光干扰。目前,该公司已推出测序系统PacBio RS System、PacBio RS II System、Sequel System、Sequel System 以及 Sequel e System 等。基因慧 93版权所有侵权必究二、技术:DNA 存储的技术流程与进展图 57:零模波导孔技术原理示意图A single molecule of DNA is immobilized in each ZMWAs anchored polymerases incorporate labeled bases,light is emittedDirectly detect DNA modifications during sequencingLight IntensityTimeNucleotide incorporation kinetics are measured in real timeSingle-Molecule ResolutionEpigenetics信息来源:PacBio官网,https:/Oxford Nanopore Technologies Ltd(以下简称 ONT)。该公司在 2005 年正式成立,并于 2015 年正式面向市场出售掌上测序仪 MinION。其随后推出了可以用于大型基因组和大规模人群测序的台式 GridION 以及高通量测序仪 PromethION。图 58:纳米孔测序技术原理示意图信息来源:Churko JM,Mantalas GL,Snyder MP,Wu JC.Overview of high throughput sequencing technologies to elucidate molecular pathways in cardiovascular diseases.Circ Res.2013 Jun 7;112(12):1613-23.纳米孔测序技术的基本原理是当纳米孔灌满导电液时,两端加上一定的电压,分子模板通过纳米孔生成可以测量的电流。当纳米孔的直径恰好只能容纳一个核苷酸(1.5 纳米)时,长达 1000个碱基的单链 DNA 或 RNA 在电场作用下就会依次穿过这个纳米孔,引起电流强度的改变,由于四种碱基空间构象不同,引起纳米孔电流改变的强度不同,四种碱基分别产生特定的电流峰值,以此即可判断不同的碱基,实现高速实时测序。由于原始电流信号非常微弱,存在较多的噪声且具有随机性,在碱基识别准确度等方面的表现低于目前主流的高通量短读测序技术。基因慧 DNA 存储蓝皮书94版权所有侵权必究针对纳米孔测序可能存在的高错误率这一问题,2021 年,Chen W G,Han MZ 和 Zhou J T 等人在National Science Review发表的An artificial chromosome for data storage一文中采用现代通信领域广泛应用的低密度奇偶校验(low density parity check,LDPC)码叠加伪随机序列,设计了可纠正严重插入删节错误的高效编码方案,从头编码设计合成了一条长度为 254,886bp 专用于数据存储的酵母人工染色体,并在读出方面,利用纳米孔测序器件实现了碱基的快速读出与无错恢复:由于碱基识别后的错误率高于10%,包含严重的插入删节错误,为处理这些插入删节错误,研究团队设计了一个融合生物信息处理中的组装与纠错的方案,进一步结合设计的可纠正插入与删节错误的纠错码,最终实现了数据的无错恢复。2.5.4 其他测序技术根据 DNA 碱基结构上的不同,用电子显微镜来观察、区别,是最直接的物理测序思路。但是,显微测序技术的发展目前仍停留在尝试阶段。显微测序有多个技术发展方向,其中最有实现前景的是:单色像差校正双光束低能量电子显微镜测序(Monochromatic Aberration-Corrected Dual-Beam Low Energy Electron Microscopy),这项技术可以直接读取碱基序列,无需标记或任何修饰,也省去了样本制备环节,而且较低的能量不会对核酸分子产生放射性损伤,错误率也较低。2.5.5 测序技术评价综上,作为 DNA 存储的关键环节之一,测序技术的发展为 DNA 存储的可行性和普及性创造了方便快捷的条件和路径选择。但是,不可否认的是,目前在测序过程中也会存在一定的失真情况,这会对还原 DNA 存储信息带来“噪声”。清华大学研究团队建立了针对碱基突变、序列丢失等不同类型 DNA 存储信道噪声仿真算法,并基于噪声分布仿真进行了编码算法优化:利用 iGeneTech 芯片高通量合成 1 万条 DNA 序列、PCR 扩增,然后对该序列进行高通量测序,将测序后 reads 的链内噪声、链间噪声的统计结果与仿真算法比较,最终 DNA 序列丢失与链内错误的噪声仿真结果,与实际高通量文库合成、PCR 后,高通量测序的统计结果一致。基因慧 95版权所有侵权必究二、技术:DNA 存储的技术流程与进展图 59:清华大学 DNA 存储信道的噪声分布仿真研究SynthesisEncoderDecoderAdjusterDecodingStatusSucceedFailedErrorProfileDNAChannel Model12341234.RedundancyExp SetupsDecayPCRSamplingSequencing信息来源:2022 年 1 月,DNA 存储前沿论坛,经原作者授权此外,在具体的测序过程中还涉及到文库构建。例如 DNA 测序前的获取步骤中(Random access),传统 PCR 扩增对原始 DNA 文库破坏严重,使其难以重复读取。因此通过改进 PCR、磁珠分离等方法对 DNA 文库中的文件选择性地获取也是近年来的研究热点。华盛顿大学研究团队将相近信息设计成相似结构,通过分子层面的相似性同时获取多条信息。北卡罗莱纳州立大学研究团队通过调节 PCR 温度、时间、离子环境等条件,实现了文件的快速部分获取,可用于快速预览文件等用途。此外,他们还借助 RNA 酶逆转录复制原始文库中的信息,同时不影响原始文库中的 DNA 分子,提高了文库的重复使用能力。现今为止所有的测序技术都是为生物研究所开发,所有测序过程都需要消耗 DNA 分子物质,因此合成量决定了信息的可被读出的次数,这对于信息存储这一应用目的来说具有一定的挑战。未来,DNA 存储技术将会与包括测序技术在内的其他 DNA 相关的技术联系更加紧密。Grass等人于 2022 年在 Nature Communications 发表综述,认为 DNA 存储技术可与 DNA 计算、DNA 神经网络结合,在传统 DNA 存储系统中引入逻辑单元,实现更加智能的信息管理和获取。随着相关研究的日益丰富,以及测序技术的成熟发展,DNA 存储技术及产品将成为一项人人可及、人人普惠、人人可选的常见存储方式之一。三、应用:DNA 存储应用场景基因慧 97版权所有侵权必究三、应用:DNA 存储应用场景3.1 概述在数据爆炸式增长的今天,DNA 存储的超高容量能解决存储介质容量不足的问题。基于 DNA存储的研发成果,可实现的应用场景:大数据存储 新型数据加密 分子追踪系统 基于 DNA 计算的分子诊断 其他应用图 60:全球数据增长趋势20080016070060050080403020 10 10201120122013201420152016201720182019202020212022202320242025 数据产出 终端存储 核心存储Zettabytes全球数据增长信息来源:IDC、希捷基因慧 DNA 存储蓝皮书98版权所有侵权必究3.2 大数据存储数据总量基数大、种类多样、增长速度快是当前大数据的典型特征,如何集中存储大量数据成为亟需解决的问题。因此,新型大数据存储须具备以下特征:更大的存储容量 更高的访问性能 更低的总体拥有成本 低碳、绿色、节能、环保图 61:数据分层模型冷数据80%5%温数据热数据性能需求成本保存时间高高短介于高低之间低低高信息来源:深圳国家基因库整理在当前技术条件下,存储介质各有所长。为了降低海量数据存储成本,企业通常通过建立分层存储架构来优化存储空间。根据数据访问频率、IO 类型、性能需求等不同特征,把数据分为热数据、温数据、冷数据等不同类型。经常访问的热数据保存在速度更快性能更好的存储系统,而不经常访问的冷数据则存放在成本更低的存储上。由于 DNA 存储信息密度高、保存寿命长、节能环保、读写速度慢、随机读写困难等特点,DNA存储目前主要适用于冷数据的长期归档。因为 DNA 存储能大大减少碳排放,对于构建新型大数据存储,实现数据中心绿色低碳。将发挥重要作用,具体体现在:1)数据存放耗电。DNA 长期离线存放不消耗电量,相比磁带,硬盘等传统媒介,耗电量更小。2)基础设施耗电。传统的存储媒介需要空调、加湿除湿器、UPS、电池、稳压器等配套设备的支持,但这些设备会带来额外的电力损耗。与此对比,DNA 存储对基础设施的耗电需求更低。3)土地资源占用。DNA 存储自身和配套基础设施的占地面积小,能在消耗有限的土地资源的基因慧 99版权所有侵权必究三、应用:DNA 存储应用场景前提下,实现大量数据的存储。4)制造材料环保。由于存储密度低,传统存储介质需要耗费大量材料来生产。同比 DNA 存储,少量 DNA 即可存储大量数据,因此更加环保。目前在 DNA 数据存储的应用上,国内联川生物与天津大学团队在微流控原位合成技术方面密切合作,共同推动高密度 DNA 合成在数据存储方面的国产化应用。国外 IARPA 于 2020 年正式启动分子信息存储项目,旨在利用合成 DNA 存储艾字节级数据,该计划将开发出能够同时向合成 DNA介质写入数据和从中读取数据的新型设备,将艾字节级数据存储系统缩减到桌面尺寸,同时大幅降低运营和维护成本,目标是在 35 年内实现商用。其次,数据中心除了冷数据存储问题,如何搭建存储体系也是重点关注问题。针对数据迁入和迁出的场景,DNA 存储体系的搭建可以借鉴腾讯云文件存储体系的架构的相关经验,相关数据存储对策及关键技术如下:腾讯云文件存储(Cloud File Storage)腾讯云文件存储(Cloud File Storage)是腾讯云自主研发的安全可靠、性能及容量可弹性扩展的共享文件存储服务。产品涵盖传统 NAS 存储及并行存储,在云厂商中首先推出百 GB 级超高吞吐及千万级 IOPS 性能的文件存储产品,单个文件系统的存储量亦支持从 TB 级扩展到 100 PB,充分满足各类规模基因分析的存储诉求。1.超高性能腾讯云上的计算节点通过 NFS/SMB 协议或 CFS 私有协议,像使用本地文件系统一样使用 CFS服务。CFS 提供的百 GB/s 超高吞吐及百微秒级的时延,使得基因测序过程中可以充分发挥计算节点性能,减少读写数据耗时,降低测序时间与 TCO。同时,CFS 的精细化流控能力可以实现同时为多用户提供无差别的高性能存储服务。1)CFS 客户端实现了单客户端同时与服务端多连接,解决原生 NFS 客户端(NFSv3 及 NFSv4)与服务端单连接导致的大量请求串行无法处理的问题,单客户端的性能最少 3 倍提升、最高可打满计算节点网卡;2)CFS 客户端支持服务路由缓存及直连能力,对接 CFS 内部自主高效的负载均衡能力,实现一跳直达目标服务,缩短访问路径,将访问时延降低至百微秒级;3)通过分工细致的队列系统及公平高效的调度策略,CFS 客户端提供了精准化流控管理及操作级别监控能力,进一步提升了服务端 IO 隔离的精细度。2.弹性伸缩及服务高可用CFS 采用全分布式架构,提供的通用系列(分布式文件存储)及 Turbo 系列(并行文件存储)基因慧 DNA 存储蓝皮书100版权所有侵权必究均可提供高可用的存储及性能的无感知弹性扩展,跨平台的接口及访问协议可无缝对接多种基因测序系统及应用。CFS 单文件系统下存储容量可从 TB 级无感扩容至 100PB,吞吐及 IOPS 性能亦可按需弹性扩展。实时在线的弹性扩容可以更灵活地满足基因测序海量数据存储及项目激增的性能需求;99.9%的可用性充分保障测序业务的连续性、减少因为基础设施异常导致的额外时间与金钱成本。CFS 支持通过生命周期功能自动对数据降冷,进一步降低存储成本。可充分满足基因测序不同项目、不同阶段对基础设施性能及成本需求。1)CFS 分布式文件系统可并发读写多个实际物理磁盘,底层存储池可在区域内多服务节点上自由挂载、卸载,容量亦可弹性配置、按需升级容量;且挂载、扩容、迁移过程均实现为在线热操作,不影响用户使用。2)CFS 文件存储为上层应用提供标准的 POSIX 语义、NFS 协议、SMB 协议、MPI 接口,可无缝对接所有主流基因测序设备及应用。3)CFS 用户文件系统命名空间使用静态哈希分区方式打散到多个 NAS Server 上,从而突破单个 NAS Server 的性能限制;同时分布式接入层 NAS Server 采取 Active-Active 模式构建,提供99.9%的高可用。对象存储(Cloud Object Storage,COS)对象存储(Cloud Object Storage,COS)是腾讯云提供的一种存储海量文件的分布式存储服务,具有高扩展性、低成本、可靠安全等优点。通过控制台、API、SDK和工具等多样化方式,用户可简单、快速地接入 COS,进行多格式文件的上传、下载和管理。在对象存储服务上,用户可以创建不同的存储桶,将文件存储在这个存储桶中,并进行上传/下载等操作。整个分布式存储架构由接入网关、接入服务、存储引擎三大部分组成,一份数据在写入到对象存储服务时,会从网关接收数据流,然后由接入服务层进行路由转发到存储引擎侧,最终在存储引擎侧会按照特定的算法切成多个数据块,分别写入到不同的存储介质中。目前在公有云上,普遍是用磁盘,尤其是 12T、16T 等高密度磁盘存储数据。COS提供多种对象的存储类型:标准存储、低频存储、智能分层存储、归档存储、深度归档存储。每种存储类型拥有不同的特性,例如对象访问频度、数据持久性、数据可用性和访问时延等。用户可根据自身场景选择以哪种存储类型将数据上传至 COS。基因慧 101版权所有侵权必究三、应用:DNA 存储应用场景图 62:存储类型的分类归档存储深度归档存储低频存储标准存储存储成本高 读写响应快存储成本适中 读写响应适中存储成本低 读写响应慢存储成本极低 读写响应极慢信息来源:腾讯云提供,基因慧整理不同存储类型的产品特征和适用场景如下:1)标准存储:支持低访问时延、高访问吞吐,可为用户提供高可靠性、高可用性、高性能的对象存储服务,适用于实时访问大量热点文件、频繁的数据交互等业务场景。2)低频存储:提供较低存储成本和较低访问时延。这种存储类型在降低存储价格的基础上,保持首字节访问时间在毫秒级,保证用户在取回数据的场景下无需等待,高速读取,适用于较低访问频率的业务场景。3)智能分层存储:该类型的对象可存放在标准存储层和低频存储层两个存储层,COS 可根据智能分层存储类型对象的访问频次自动在对应的两个存储层之间变换,无数据取回费用,可降低用户的存储成本。智能分层存储适用于数据访问模式不固定的场景,如果业务对成本要求较为严格,且对文件读取性能较不敏感,可以使用该存储类型来降低使用成本。4)归档存储:可为用户提供高可靠性、极低存储成本和长期保存的对象存储服务。适用于需要长期保存数据的业务场景。5)深度归档存储:可为用户提供高可靠性、比其他存储类型都低的存储成本和长期保存的对象存储服务。与归档存储的差别在于,深度归档的存储成本更低,但需要存储更长的时间。在基因测序场景中,作为原始数据的FASTQ数据和比对后输出的BAM数据通常都需要长期保存,便于后期持续挖掘价值,因此低频存储、归档存储/深度归档存储均可作为高性价比的存储方式。标准存储鉴于其低访问时延、高访问吞吐的特性,更适合用于 VCF 数据的存储,便于临床医生、科研专家进行变异分析和标注。基因慧 DNA 存储蓝皮书102版权所有侵权必究回顾前文所述 DNA 存储特征,目前其主要优势在于信息密度高,存储成本有机会跟随超摩尔定律快速降低,但读取写入速度慢。因此,在当前海量分布式存储系统中,DNA 存储技术的典型特征与深度归档存储的业务模型和适用场景最为匹配,未来可以作为大规模冷数据的长期归档和备份使用,但目前仍然存在较大的技术挑战:1)数据持久性低2)存储成本高3)数据读写速度慢4)适配现代存储系统基因慧 103版权所有侵权必究三、应用:DNA 存储应用场景3.3 新型数据加密除了财产信息、健康生理信息、生物识别信息、身份信息等私密信息外,由于 DNA 存储的高存储密度、低能耗等特点,DNA 存储也可用于新型数据加密,包括个人及集体私密信息。DNA 存储除了可以在数据中心作为超大容量归档存储,也可以用于个人加密存储私密信息,或者重要物品的防伪。个人私密信息包括财产信息、健康生理信息、生物识别信息、身份信息、网络身份标识信息等,有可能会危及个人财产和人身安全。对于敏感及高度机密信息,一般建议在离线设备上加密保存;为防止非法访问,通常使用隐写和加密两种技术,利用 DNA 固有的高存储密度、高并行性、低能耗、体积小等特点,在隐写和加密领域具有某些传统计算机无可比拟和替代的优越性。隐写是将文本、图像、音频、视频或文件等敏感信息隐藏在某种界质中的技术,仅授权于特定知情人。衡量隐写技术的主要指标包括信息容量、隐蔽性、不容易被篡改或伪造等。DNA 序列以下特性可用于隐写和加密的载体,即称为 DNA 隐写:DNA 的数据密度大,即使加上编码和数据冗余造成的消耗,DNA 存储在单位面积的数据量上远超传统技术;DNA 体积极小,隐秘性高。人造的 DNA 和自然的 DNA 序列几乎没有差异,很难区分到底是否含有机密信息的人造 DNA;当把带机密信息的 DNA 混在其他 DNA 中,几乎不存在篡改或伪造信息的可能;DNA 可以和其他技术整合使用,应用范围更广。图 63:DNA 隐写转成 DNA 加密封装 DNA隐藏在眼镜信息来源:深圳国家基因库整理为了达到更高的安全级别,科学家们还常把 DNA 隐写与加密技术一起使用。一方面,可以在机密信息转换成 DNA 序列信息之前用传统的 DES、AES、RSA 等算法进行加密;另一方面,也可以用 DNA 计算直接实现加密。利用 DNA 本身的特征构建的密码系统包括依赖密码本序列,采用映射基因慧 DNA 存储蓝皮书104版权所有侵权必究替换法或者异或法的一次一密加密,基于聚合酶链式反应(PCR)引物作为密钥的加密,和利用DNA 探针进行对称和非对称加密等。自 2009 年比特币诞生以来,加密货币的规模越来越大,成为越来越多人的财富重要组成部分。私钥作为加密货币所有权的唯一凭证,是非常重要的私密信息,必须进行备份,以防丢失。DNA存储作为一种使用寿命长、与时俱进的新兴技术,是极具潜力的备份方案。叠加 DNA 隐写和加密等特性,私密信息可以长期存储在只有知情者可以获取的地方。随着 DNA 合成的测序成本的下降,人们更倾向于 DNA 存储来存放私密信息。除了个人私有存储,DNA 隐写和加密还可以用来取代生活中常见的条形码、二维码和防伪认证标签。基于DNA的信息存储技术可以创建比传统方法更小、更难发现、更难篡改的新型标记系统。与传统的方法不同的地方在于,DNA 标签无法通过视觉或者触觉的方式来发现,在高价值产品的防伪方面能起重要的作用。另外,DNA 存储可以在多种应用和技术上相兼容。隐写术可应用于军事、金融等:在军事应用层面,美国科学家曾在 1999 年发表过“DNA 隐写术”的文章。研究人员将“JUNE 6 INVASION:NORMANDY”这段历史上的军事密令转化成 100bp 左右的 DNA 信息,然后将该 DNA 与30 亿 bp 的垃圾 DNA 信息混合,起到情报保密的作用。在金融应用层面。美国初创公司 Carverr 推出将数字货币密码存储在 DNA 中的服务,以保护数字货币财产,目前仍与银行和其他大型加密货币控股公司进行谈判,以扩大服务范围。基因慧 105版权所有侵权必究三、应用:DNA 存储应用场景3.4 分子追踪系统2008 年,D.Onoshima 等研究人员曾基于酶促反应,使用微流控系统来追踪单个反应物 DNA 分子轨迹,并成功证明该方法可以应用于 DNA 和蛋白质,奠定了分子追踪系统成为应用方向的基础。分子追踪技术是利用高分辨荧光显微镜对细胞内单个特定分子进行定位和追踪。图 64:追踪 DNA 分子对酶促反应的轨迹MicrochannelflowEnzymearea(a)(b)QD-taggedDNAReactionproducts图释:(a)通过检测单个 DNA 分子运动对酶促反应中的时间序列分析(b)QD 标记 DNA 的 CCD 图像中的一帧,圆圈表示单个反应物 DNA 分子。信息来源:Onoshima et al.,Proc.Micro Total Analysis System,2008除了微流控系统,还可以应用分子标记技术进行分子追踪。分子标记是一种使用 DNA 或其他分子标记物理对象的方法。来补充或替代传统的条形码、二维码等,而这些标签不能用于追踪数量太多或者太少的对象,并且价格昂贵。2020 年华盛顿大学和微软研发出新型“条形码”“豪猪”分子标签系统,可用于二维码无法适用的微小物体上,且通过便携式设备在几秒钟内进行解码。图 65:“豪猪”分子标签系统信息来源:Doroschak et al.,Nature communications,2020基因慧 DNA 存储蓝皮书106版权所有侵权必究根据华盛顿大学和微软的研究报告:在豪猪系统中,数字标签的二进制 0 和 1 由 96 个“分子比特”中的每一个“存在”和“不存在”表达;用户可以任何混合现有的链,并快速创建新的标签;在保存方式上,在初始标签组装期间准备好用于读取的熔块,进行脱水处理以延长标签的保质期;DNA 标签系统安全性高,很难被篡改。DNA 存储技术的研发和应用进展使得对分子轨迹进行追踪得以实现,并以此诞生多样化的技术,并且应用于食品安全、司法、医疗健康等。基因慧 107版权所有侵权必究三、应用:DNA 存储应用场景3.5 基于 DNA 计算的分子诊断DNA 计算是新兴的计算技术。包含信息学、数学、物理学、纳米领域等学科,由于其 DNA 分子的高密信息存储能力、强大的并行运算能力和分子识别能力,具有巨大的应用潜力,目前正处于早期研究。根据上海交通大学研究团队成果,DNA 分子计算是基于平行计算的原理。若把一对 DNA 分子互补碱基的计算能力理解为 1 的话,1uM 的 DNA 序列可以平行计算大约 1017的数据量。借助 DNA超大数据平行计算容量,DNA 计算可以在一秒内完成比现有的超级计算机更多的操作,若结合 DNA的平行计算能力和分子识别能力,则可实现精细、智能和复杂的分子计算。图 66:基于 DNA 计算的肿瘤分子诊断流程图lsolationClinicalSerumSampleDNA ComputationprobesmiRNAssDNALoop DNACancerHealthyDNA Computation1 h1 h2.5 h1.5 hAmplification Transformation信息来源:Zhang et al.,Nature nanotechnology,2020基于以上理论,韩达课题组发展出 DNA 计算的肿瘤分子诊断技术,步骤如下:首先利用 TCGA 数据库中肺癌 miRNA 表达谱进行机器学习模型训练,获得了一组非小细胞肺癌高度相关的特征 miRNA 以及对应权重的分类模型;其次,将血清中微量特征的 miRNA 通过线性扩增放大到 nM 数量级;随后通过成环反应将 miRNA 序列转换成长链环状 DNA;最后通过 DNA 计算使之有肺癌或健康一种特征的信号分子被放大并产生报告信号。相对于传统的技术,基于DNA计算的分子诊断技术拥有强大的并行计算能力和分子识别能力,一旦成熟应用,将是对临床分子诊断是重大的变革。目前仍处于理论完善及科研阶段。基因慧 DNA 存储蓝皮书108版权所有侵权必究3.6 其他除上述提到的应用以外,DNA 存储还有更多的想象空间,以下将从这几个应用展开,DNA 电子简历、体内 DNA 存储、DNA 记录器、万物 DNA。DNA 电子病历在医学植入物中,患者数据和植入物信息被保存到长期的“DNA 电子病历”。当植入物损坏,只需要从植入物中提取保存的信息,即可重新生成独一无二的植入物。植入物一生跟随着病人,不存在档案信息保管不当丢失重要信息无法还原的问题。体内 DNA 存储迄今为止,大多数 DNA 存储的尝试都是在体外进行的。这主要归功于当前 DNA 测序和合成技术快速发展,体外存储在通量、操作便利性等方面更有优势。但实际上人类第一次实现 DNA 存储的概念验证,是将数据编译写入大肠杆菌,也就是说是在细胞内完成的。体外 DNA 存储依赖于体外 DNA 合成,通过溶液、干粉或二氧化硅等形式保存,但借助细胞实现体内 DNA 数据存储可能在合成速度、合成成本方面会更有优势。细胞内 DNA 存储可以利用生物自身的功能,比如细胞自身DNA 复制和校对的机制、细胞能使 DNA 免受环境干扰的能力等。细胞体积较大,导致了体内 DNA 存储密度低于体外 DNA 存储,但其在体内的特点又有着独特的优势。一方面,有了体内 DNA 存储技术,未来可以通过人体或者其他生物携带数据,每个生命体都可以成为一个超大容量的移动硬盘。另一方面,某些体内 DNA 存储的读写是借助基因编辑技术实现的,进一步扩展了基因编辑技术的应用,从农业分子育种、畜牧业繁殖、生物多样性保护、解决人口粮食问题、工业生物合成等。DNA 记录器体内 DNA 存储除了可以记录人类创作产生的数据,还可以记录细胞事件和细胞所在的生存环境信息。科学家们已经研究出这种可读写 DNA 的生物感应器原型,可以在不影响生命体正常运作的前期下,长期跟踪记录分子事件,连续记录细胞活动,以供研究使用。比如:1.可以记录肿瘤的发展过程以及环境信息,揭秘肿瘤的形成机制。2.改造土壤或水中的细菌,用来检测和记录毒性物质、微量元素等。3.用来绘制人类大脑活动图谱。基因慧 109版权所有侵权必究三、应用:DNA 存储应用场景图 67:DNA 记录器原理图MulticellularUnicellularCell populationaSignal sensingDNA writingDNA readingActuationCellSensorWriterSignal信息来源:Sheth et al.,Nat Rev Genet.,2018 万物 DNA“万物 DNA”(DNA-of-things)来源于“物联网”,本质是通过 3D 打印具有 DNA 编码信息的新型信息介质作为“记忆”的物体。具体来说是将 DNA 封装在二氧化硅中,并将含有 DNA 的二氧化硅封装物料融合在其他材料,并进行 3D 打印。将 3D 打印的物体取出进行部分溶解,得到含DNA 的微珠材料,通过 DNA 提取、PCR 和测序,即能提取编码信息。科学家们曾经用 3D 打印制作了一只兔子(斯坦福兔),并将制作这个兔子所需要立体光刻文件数据写入 DNA 片段,然后封装在大小为 160 纳米的二氧化硅小球上,嵌入制作兔子的热塑性聚酯材料中。就像生物可以从组织中提取 DNA 来克隆“重生”,科学家们从这只兔子耳朵处剪下部分打印材料,从中提取出 DNA 还原其中存储的数据,并最终完整克隆出一模一样的兔子,实现一代代不断复制。图 68:DNA 封装 3D 光刻文件数据制作兔子原理图Binary stl filea10011000111010100010111011010011101001001001001001DNA code stl fileEncode with DNA fountainSequencing and decodingwith DNA fountainDNA extractionPrinting of 3D objectFilament extrusionDNAencapsulationPCR信息来源:Koch et al.,Nature Biotechnology,2020四、展望:产业发展机遇及关键点基因慧 111版权所有侵权必究四、展望:产业发展机遇及关键点4.1 DNA 存储产业发展的机遇4.1.1 BT 和 IT 融合的典范,利用 BT 突破 IT 的天花板“DNA 信息存储技术是利用生物技术(BT)来突破信息技术(IT)的天花板,是用 BT来解决 IT 领域的难题。利用 DNA 信息存储,能够使人类的数据与文明被亿万年保存下来。”中国科学院计算技术研究所的孙凝晖院士2021 年 2 月,科技部发布“十四五”国家重点研发计划“生物与信息融合(BT 与 IT 融合)”重点专项,聚焦未来生命科学、医药健康产业和经济社会发展等重大需求,引领新经济模式发展。DNA 存储是其中三项任务之一。方向包括:表 17:“十四五”重点专项“生物与信息融合(BT 与 IT 融合)”中 DNA 存储研发方向及指标开发方向指标DNA 分子信息存储的高加密性编码与信息安全体系研究恢复率90%,10个拷贝的最低DNA分子数,1%读写容错率,K 128 的密钥强度,防复制、防篡改的类区块链方法等基于多类型生物分子的超高密度信息存储技术研发净信息密度3.8 bits/nt,数据保真度99.9%,生产级(kg 级)低成本适配碱基单体制备,200nt 的高效扩增,验证通量大于 10M 碱基等大规模可寻址可控催化 DNA 合成技术研发搭建配套芯片,兼容兼容 CMOS 或 MEMS 工艺,合成阵列达1000 万单元/cm2,单元间的合成交叉干扰几率 40nt 超高通量单分子晶体管测序技术研发实现测序单元的核心器件,可达单分子灵敏度,数据采样频率高于 1MHz信息来源:科技部;基因慧整理通过以上具体的研发方向(也是未来产业化和应用基础设施),可以看到 DNA 存储技术集成光电、DNA 测序、DNA 合成、生物材料、信息编码,实现数字和生物信息的双向流动,是 BT 和 IT融合的典范,如同元英进院士所言:“(DNA 存储是)突破半导体和合成生物学的瓶颈,实现研究范式和路径变革”:半导体发展瓶颈:功耗极限、小尺度工艺成本、投资回报 合成生物发展瓶颈:通量、成本、功能扩展、工程理念 BT 和 IT 交叉融合:生命信息的小尺度、低功耗吸引半导体领域仿生设计;半导体技术应用扩展到生命科学基因慧 DNA 存储蓝皮书112版权所有侵权必究图 69:DNA 信息存储与现代存储系统的融合写入端读出端开放系统互联参考模型存储系统分层模型存储系统分等级架构分布式存储、云存储、纠删、去重复等信息可靠高效的表示与编码合成、扩增与测序等介质应用层应用层应用层高性能数据应用SSD第1 级HDD第 2 级HDD/TAPE第 3 级TAPE/CD/DNA第 4 级各类 DNA 存储模式在线数据非实时归档表示层表示层会话层会话层传输层传输层网络层网络层物理层物理层数据链路层数据链路层信息来源:韩明哲等,DNA 信息存储:生命系统与信息系统的桥梁,合成生物学,2021DNA 存储有望满足大数据海量存储及安全需求,应对半导体和生物技术面临的趋向成本和效率极限的挑战。在工程设计驱动 DNA 存储方面,例如元英进教授团队研发的“酵母 CD”数据存储人工染色体,可以使用纳米孔测序读出,实现高效纠错,编码碱基数超过 24 万,而之前的研究在单个细胞内用于存储数字信息的部分仅有几千碱基;深圳华大生命科学研究院研发的 YYC 阴阳双编码系统通过 in vivo 酵母细胞存储,实现信息存储密度 432.2 艾字节/克(接近理论值)。在 DNA 存储驱动半导体发展方面,通过 DNA 存储研发 28nm 工艺的大规模微电极阵列芯片。电子元件和分子元件的结合,是DNA存取一体化、更为复杂操作的DNA存储体系的基础。2019年,微软公司和华盛顿大学研发的DNA数据自动读写装置模型,是首个实现端到端的集成DNA存储系统,使用定制的计算机芯片自动移动液体,使得软件能够访问到 DNA 储存的生物学信息。4.1.2 推动未来生命科学的关键共性底层技术DNA 合成十九届五中全会提出“优化学科布局和研发布局,推进学科交叉融合,完善共性基础技术供给体系”的要求。上文提到的 BT 和 IT 融合即是“学科交叉融合”,“共性基础技术”即是 DNA合成和 DNA 测序,尤其是 DNA 合成,它不仅是 DNA 存储的核心技术,也是生命科学及其相关领域发展的关键共性底层技术。从 DNA 测序、DNA 编辑到 DNA 合成,完成从“读”、“写”到“存”的跃迁。DNA 合成技术包括化学法合成、酶促法合成和连接法合成等方式,结合了生物化学、分子生物、光电材料等跨学科技术,是目前 DNA 领域较为前沿和复杂的技术之一基因慧 113版权所有侵权必究四、展望:产业发展机遇及关键点 DNA 合成是合成生物的关键共性底层技术。合成生物依赖 DNA 合成建立更加精密的人工生物学系统;同时随着 DNA 合成技术的逐步成熟,正加速合成生物突破大规模产业化瓶颈,朝着工程化、设计化、精细可控的方向发展 DNA 合成是基因合成、疫苗和生物医药研发、快速检验试剂盒、工程菌改造等领域的关键底层技术之一4.1.3 提高数据存储效率和安全,赋能产业数字化与碳中和随着“十四五”数字经济发展规划的发布,数字基础设施将成为新兴基础设施。根据工业和信息化部发布的中国数字基建的脱碳之路:数据中心与 5G 减碳潜力与挑战(2020-2035)报告,数字基础设施的碳排放“锁定效应”将成为我国实现“碳中和”的重要挑战。2035 年,预计我国数字基础设施用电量将占全社会用电量的 5%-7%,约占中国碳排放量的 2%-4%,相当于目前两个北京市的二氧化碳排放量。互联网数据中心(Internet Data Center,IDC)必须转型到超低能耗存储技术转型。而 DNA 存储不仅基于可再生资源介质,而且是超低能耗、超高密度、超稳定的存储系统:超高密度:在存储密度提升 6-7 个数量级 超低能耗:仅需冰箱保存所需电量 超稳定性:半衰期为 521 年,抗冲击、抗电磁波;可去中心化存储,分子加密方式灵活4.1.4 DNA 计算和 DNA 网络DNA 除了存储信息外,由于它的非周期性材料属性,为分子编程提供了丰富的工具箱,这为BT 和 IT 开发者提供了新兴载体,从 DNA 开关、DNA 计算到 DNA 网络等。目前这一领域处于极其早期,但是由于 DNA 的特点,可以实现高性能架构设计和单分子动态成像,而具备极其广阔的前景,包括具备存储、计算功能的生物传感器等:基于 DNA 存储记录微小分子事件(例如细胞膜蛋白的相互作用)(Fahim Fazadfard,Science,2018,361)基于 DNA 计算进行分子诊断 利用 DNA 纳米技术工具箱实现 DNA 分子间反应的可编程控制(Han,Nat.Nanotec.,2020,15)不需要测序和人工辅助,一次测量所有血型基因型 基于 DNA 开关进行逻辑运算(Wang,F.,Nat.Commun.,2020,11)DNA 分子开关控制 CRISPR 活性(Hao,Y.,Angew.Chem.Int.Ed.2020,59)基于单分子荧光信号动态测定单分子反应动力学和局域分子运动状态(Nat.Materials,2019,18;Science Adv.,2020,6)基因慧 DNA 存储蓝皮书114版权所有侵权必究4.2 未满足需求与关键问题目前 DNA 存储还处于技术研发的阶段,技术驱动 DNA 存储产品化和产业化。从技术层面,酶促合成和化学合成(包括光化学合成及电化学合成)均有各自的优劣,整体上,高通量 DNA 合成在规模化生产及应用前,仍需克服一系列的关键问题。为实现技术可及性,满足规模化生产及应用的需求,DNA 存储短期要解决仪器层面的合成成本及效率,长期要解决芯片层面的算力成本。根据基因慧的相关调研,目前 DNA 存储未满足的需求及关键问题罗列如下。4.2.1 DNA 合成及存储成本高目前平均来说,合成寡核苷酸的成本约为 10-3美元/碱基,存储 1TB 数据约需要 10 亿美元,以第二代测序为例,单个样本的数据量动辄就达到 TB 级。而随着基因研究技术进步,生物信息数据的存储计算需求每 12 到 18 个月就会增长 10 倍,这对存储系统可扩展性以及存储成本提出巨大挑战。根据国内外机构与专家的评估,规模化应用前至少需要下降 8 个数量级,即到 100 美元/TB 碱基。图 70:存储介质的成本对比当前 Twist 合成净成本达到硬盘存储成本寡核苷酸池合成价格(2019)210-3美元/ntDNA 芯片合成价格/(美元/GB)硬盘DNA 存储内存软盘1957196719771987年份1997200720172027当前成本分子信息存储技术(MIST)计划目标210-11美元/nt10-12美元/nt10-110-310-210-11011021031041051061071081091010101110121108信息来源:韩明哲等,DNA 信息存储:生命系统与信息系统的桥梁,合成生物学,2021解决路径仍在探索中,专家提出的一个思路是学习高通量测序,采用并行化的思维。例如深圳华大生命科学研究院正在研发的基于分选原理的高通量芯片合成仪,独立载体实现并行合成,未来将积极降低成本;中国科学院武汉病毒研究所的研究团队提出基于生物法 DNA 合成技术路线(获得国家重点研发项目立项)。以上两种方法理论上成本可降低 5 个数量级。基因慧 115版权所有侵权必究四、展望:产业发展机遇及关键点中国科学院深圳先进技术研究院戴俊彪表示(DAI Junbiao.Synthetic Biology Journal,2021),利用通用合成的 DNA 片段,基于类似于“活字印刷”的原理来存储数据信息,也可能是一种非常有效的降成本方式。比如将英文的 26 个字母分别存储在通用合成 DNA 上,然后通过酶拼接或者其他方法,在存储信息时,进行自由组合,进而反复使用一次合成的 DNA 分子,能够潜在地降低成本。4.2.2 DNA 存储的准确率不高DNA 存储的准确率不高是除了成本之外最大的问题之一,原因有多方面,包括寡核苷酸的合成与组装过程的错误、DNA 测序准确率、PCR 扩增偏好等带来的不稳定性等等。(1)合成错误率中国科学院深圳先进技术研究院戴俊彪表示(DAI Junbiao.Synthetic Biology Journal,2021),化学寡核苷酸合成常常伴随着较高的错误率。由于盖帽不充分、反应试剂纯度不够、反应环境湿度太高、酸处理时间过长、偶联时间不够等多方面原因,合成会出现碱基缺失、突变等多种错误。然而合成错误率并不是限制因素,可以通过纠错算法来更正。深圳华大生命科学研究院研究团队在文章(SHEN Yue,Synthetic Biology Journal,2021,2(3)中表示,常规 DNA 合成的错误率为 0.1-0.3%左右,而大片段 DNA 组装合成中错误率会更高。(2)测序错误率图 71:PCR 扩增偏好问题示意图信息来源:Lin et al.,Nature Communications,2020尽管目前的错误率已经低至10-3数量级,但相对商业硬盘的读写错误率仍相差至少9个数量级。基因慧 DNA 存储蓝皮书116版权所有侵权必究主要原因是测序技术本身的局限,需要依靠提高测序深度来达到高准确率,包括高通量测序中的PCR 偏好及单分子测序中引入的插入缺失问题。图 72:动态操作和可重复使用信息存储(DORIS)的系统信息来源:Lin et al.,Nature Communications,2020对于高通量测序中的 PCR 偏好问题,例如北卡罗来纳州立大学研究团队开发了一种动态操作和可重复使用信息存储(DORIS)的系统,无需 PCR,使用由单链 DNA 组成的“悬垂”而非双链 DNA 作为引物结合序列,在室温下可以工作,将 DNA 转录为 RNA,然后通过反向转录来读取的数据存储系统 DNA。此外,单链”悬垂”也可以修改,允许用户重命名文件、删除文件或”锁定”文件,从而有效地使其他用户看不到这些文件。对于单分子测序的错误率以及包含难以处理的插入与缺失错误问题,天津大学研究团队从头设计合成了一条 254 886 bp 的存储专用染色体,其中数据编码部分占 95.27%,将单菌内数据存储DNA 数量提升到了百 kbp 级,存储了 37.8 KB 图片、视频以及文字。采用叠加编码方案,有效克服三代测序的高错误率问题,实现了数据的可靠恢复,这项工作突破性地将单菌内数据存储 DNA 数量提升到百 kbp 级(YUAN Yingjin et.al.,Synthetic Biology Journal,2021,2(3):309-322))。(3)寡核苷酸拼接过程中的 PCR 局限由于 PCR 扩增偏好问题,高温 PCR 扩增酶对于高 GC 或者高 AT 区的扩增困难,以及高 GC/AT和高重复序列会增加不同寡核苷酸或 DNA 片段的错配,从而导致组装失败;通过常规 DNA 合成的错误率分析。通过往 PCR 体系中添加 GC 扩增增强剂、优化 PCR 程序以及在寡核苷酸设计时避免将这些区域包裹在重叠区内等方式,能够一定程度解决这些问题。解决 DNA 合成及测序的错误率问题,除了以上方法,常见的解决方式是纠错编码,在插入/删除/替换错误各 1%的情况下,大多数转码方案的原始数据恢复率都在 97.05.62%之间。基因慧 117版权所有侵权必究四、展望:产业发展机遇及关键点深圳华大生命科学研究院研究团队表示(SHEN Yue,Synthetic Biology Journal,2021,2(3))合成错误、测序深度、PCR 随机性等会造成 DNA 分子的突变或者丢失。这些突变和丢失通常分为系统误差和随机误差。在 DNA 存储中,随机误差一般由测序产生,而测序过程的随机错误通常可以用序列比对的方式进行相互校正,但系统误差一般由合成或分子生物学操作产生,无法通过常规测序数据处理方式进行校正。而常规纠错编码可以有效纠正少量的替换错误,但插入删除错误及分子丢失无法纠正。4.2.3 DNA 读取速度慢南方科技大学研究团队在DNA 数据存储前沿论坛中表示,相对固体硬盘(550MB/s)和机械硬盘(160MB/s),目前 DNA 读取速度至少还相差 3-4 个数量级。例如 MinION 测序芯片的速度为 56KB/s,Illumina 主流测序仪的速度为 5-500KB/s。解决的方向,一方面亟需测序仪本身的迭代优化;另一方面发展存取一体化系统。4.2.4 大片段基因合成组装长度的局限由于寡核苷酸拼接组装中的碱基仍存在一定的错误率,为减少首次克隆筛选获得正确克隆的工作量,通常从寡核苷酸直接拼接组装的基因长度会控制在 3 Kb 以内。对于更长的基因合成,则将首轮克隆筛选获得的正确的基因片段组装成更长的片段。一系列方法被应用其中,如 Golden Gate 组装、Gibson 组装、循环 LCR、双引物 TPA 组装、BioBrick 组装等。其中 Golden Gate 组装法和 Gibson 组装法,在大片段基因合成组装应用上相对成熟。4.2.5 存取集成自动化不足尽管短期内DNA存储的应用场景是冷存储,但长期而言需满足热存储的快速随机访问等需求。而目前 DNA 存取集成自动化不足,2019 年微软和华盛顿实现的端到端的集成 DNA 存储系统,5 字节读写消耗 21 小时;同年,美国 Catalog 公司实现 16GB 维基百科的信息存储,采用预合成的 DNA进行长链组装,未整合信息读取(测序)系统。这主要因为 DNA 合成设备尚未完全成熟;另外,DNA 合成、DNA 测序、信息操作系统等各功能模块间接口适配不成熟。解决这个问题的方向是集成化,例如蒋兴宇教授研发离心式微流控平台开发,以及深圳华大生命科学研究院研发的 Chamaeleo 编解码集成系统、结合高通量合成仪、高通量测序仪、自动化样本库等读写存系统一体化解决方案。据悉,该一体化解决方案目前基于华大智造自动化产线 MGIGLab 系列,已在开发中。基因慧 DNA 存储蓝皮书118版权所有侵权必究4.2.6 BT 和 IT 的战略协同合作DNA 存储是 BT 和 IT 交叉融合学科,也是光电、生化、材料、分子生物等产业融合的领域,涉及技术及产业链纷繁且复杂。从目前的研发原型到量产,需要代表测序、合成、算法、架构等领域的专家及团队通力协作。这需要 BT 和 IT 领域的决策者的重视和战略协同。基因慧 119版权所有侵权必究四、展望:产业发展机遇及关键点4.3 发展方向4.3.1 更高效的存取一体化体系突破目前介质的存储密度极限和高能耗等问题,实现新型的IDC(互联网数据中心)模式,包括:可稳定存储大规模数据的持久存储体系 支持快速读取、随机访问的存取一体化体系 高度集成化自动化系统等4.3.2 更有效的编码算法和信息载体由于 DNA 测序、合成等平台的局限,对于准确率不高的信息纠错是重大的挑战。解决方向包括编码算法和载体两方面。编码算法方面,需要迭代低复杂度、纠错、索引、压缩算法等。例如中国科学院深圳先进技术研究院合成生物研究所、中科碳元研究团队研发的“悟空”编码算法,容纳超过 20 万亿种编码规则,通过自然语言处理(NLP)人工智能算法实现 DNA 存储纠错。载体方面,中国科学院武汉病毒研究所研究团队提出,发展多元的信息编码载体,包括 DNA序列(DNA 分子、类 DNA 分析)、DNA 结构(二级结构单元、DNA 组建)、DNA 反应(分子反应产生的光电信号)等。4.3.3 更复杂的数据操作和算法优化在数据操作方面,例如莱思大学研究团队研发了编码、复制、擦除和解码 DNA 分子中的信息的方法,还提供了包含其序列编码信息的 DNA 分子的组合物。在大规模数据的算法优化方面,非线性计算成本高,信息编码需具备系统的编码结构和线性复杂度,进一步降低错误率;同时结合多个编码提高恢复数据比例,例如,天津大学研究团队采用 DNA-LM 码与 RS(255,223)码级联模拟存储,可 100%恢复数据。4.3.4 DNA 操控与生化反应小型化2019 年微软公司和华盛顿大学研发的 DNA 数据自动存储器,虽然不依赖人为控制,但是占地面积大,不便于规模化生产。DNA 存储的小型化、集成化是必然方向。例如南方科技大学研究团队研发基于离心式微流控平台的 DNA 数据光盘:基因慧 DNA 存储蓝皮书120版权所有侵权必究 利用微流控原件(微泵、阀、混合器等),操纵纳升级的液体 可对样本完成前处理、纯化、分离、分析等过程 芯片上完成合成、纯化、修饰、扩增、测序等化学反应 可单独寻址、随机访问的正交开闭、3 小时存储 153TB(3x7cm2)可以实现一步式 DNA 分检(Anal.Chem.2020,92,14846-14852)、单核苷酸多态性(SNP)快速索引(Chem.Sci.2021,12,4455-4462)、动态多重免疫分析(Lab Chip,2019,19,2750-2757)以及高灵敏度蛋白质检验(Biomedical Microdevices,2019,21(3)等。除了 DNA 存储装置的小型化,未来可以想象进一步结合可穿戴金属高分子导体(MPC),用于电子血管、智能 T 恤等。这类成果还包括上海交通大学研究团队的研发的 DNA Origami 纳米芯片等。4.3.5 分子电路和数据调控DNA 作为非周期性晶体,它的材料属性为分子编程提供了丰富的工具箱,特别是未来期待的分子电路以及基于此的数据调控。通过分子信息处理,将分子行为的无序性转化为信息的确定性。从哈密尔顿路径、逻辑门电路发展到图像识别,未来的迭代方向之一是分子计算机。而基于DNA 链计算和细胞逻辑,不仅可完成数据索引和计算,还可以进行空间搜寻、数据调控、数据加密或数据自毁。目前的 DNA 分子网络仍在非常早期的研发,但运算能力逐步提升,从加、减、乘到开根号到解一元二次方程。优化方向包括基于DNA开关电路、纳米限域反应网络的高性能架构设计;基于单分子动态成像,包括时域上基于单分子荧光信号动态测定的单分子反应动力学(Nature Materials,2019,18,273),空域上基于单分子定位的分子运动动态(Science Advance,2020,6,Wang,F),亦可以应用基于单分子逻辑门控制活细胞染色体成像。上海交通大学研究团队表示:简化分子算法,减少非特异碰撞;引入空间限制,降低自由度等均可以不同程度提升或优化 DNA 分子网络的运算能力。4.3.6 更多样的分子存储介质和创新的存储硬件体系北京大学研究团队提出(QIAN Long,Synthetic Biology Journal,2021,2(3):)除了 DNA 之外,其他碳基存储介质也展现了信息存储能力,包括混合碱基、代谢组存储、蚕丝蛋白等更多样的分子存储介质等以及芯片上的存储硬件体系。基因慧 121版权所有侵权必究四、展望:产业发展机遇及关键点例如,中国科学院上海微系统与信息技术研究所研究团队发明了基于蚕丝蛋白的生物存储器,每平方英寸可以存储 64GB 数据信息(1 平方英寸=6.451610-4m2),并且可重复擦写。蚕丝蛋白和DNA相似,可耐受异常湿度、辐射和磁场等环境。蚕丝蛋白也可以用于存储生物体DNA等生物样品,有望未来和 DNA 介质结合,用于数字存储。尽管其存储密度依旧受限于光学写入设备的分辨率,但展现了学术界对于碳基介质用作信息存储的认可。而代谢分子(糖类、氨基酸等)更小,也可以用作信息存储。布朗大学研究团队受DNA 存储的启发,利用代谢分子液滴在金属板点阵列存储图片等信息。与简并碱基的思想类似,他们利用对代谢组分分布的测量实现了更高维度空间中的信息编码。图 73:DNA-Storage-on-Chip 的创意图信息来源:NCSU尽管碳基存储尤其 DNA 在密度上有很大优势,考虑到随机访问所需的稀溶液条件和分子扩散速率,1 L 的 DNA 存储池的信息容量被限制在 TBZB 量级。因此,值得关注“Storage-on-Chip”的理念。存储硬件体系的设计需要适配实际考量;超大规模的数据存储离不开存储体系的创新。总体来看,DNA 存储目前在原理验证、编码方法等基础工作上已经取得了大量的突破,但这一部分工作仍然会是 DNA 应用于数据存储、信息交换载体的重中之重,就如同今天在通讯领域的编解码所做的基础工作一样。不仅仅要继续解决如何用 ATCG 四种碱基、甚至更多人工碱基进行高密度编码的数学方法,也要解决如何利用神经网络等方法进一步结合DNA载体特征进行数据压缩、失真恢复等工作。除了上述基础工作之外,基于 DNA 存储,如何在这一载体基础上完成基于数学方法和生化方法结合的高效信息检索、模糊搜索也是重要的方向。在实际应用中,低成本、高通量的合成技术,存读一体机开发,以及重大历史资料的应用示范等也值得重点关注。一方面,DNA 存储与 DNA 合成与测序技术、细胞生物学与分子生物学技术、BT 和 IT 技术等领域正在不断交叉融合,DNA 因数据稳定性、传输、更迭、维护、保存等实用角度成为人工信息储存的理想介质,成为存储介质中的“黑科技”。基因慧 DNA 存储蓝皮书122版权所有侵权必究另一方面,随着生物技术的发展,特别是高通量的芯片合成和测序技术的不断完善,DNA 数据存储领域也得到了越来越多的关注。与此同时,虽然大量研究表明 DNA 信息存储无论是在存储能力、保存时间还是稳定可重复的读取上都展现出了巨大的发展前景,但目前 DNA 信息存储仍面临巨大的挑战。首先,读写成本和 DNA 数据存储的错误率是面临的主要问题,但随着 DNA 合成和测序技术的改进,其成本和准确率有望得到提升,使其更好地适用于 DNA 存储领域,反之,DNA 存储的快速发展也将带动合成和测序技术的二次飞跃。其次,在信息编码和硬件上,DNA存储将主要攻克随机读取、擦写、信息加密等关键问题。最后,活细胞 DNA 存储技术搭配先进的细胞微处理器技术,可以在小尺度范围整合数据的存储与决策,即数据“存”与“算”的一体化和边缘化,这个愿景的实现将依赖于 DNA 存储技术和细胞计算领域的巨大突破。在未来的超大数据时代,活细胞 DNA 存储或能以医疗健康为中心进行广泛的应用辐射,具备颠覆性技术的潜能。再次,在云应用的角度上,公有云对象存储服务会按照特定的算法将数据切成多个数据块,按照文件存储类型分别写到不同的存储介质中。DNA 存储技术的主要优势在于信息密度高,存储成本有机会跟随超摩尔定律可快速降低,但主要劣势在于读写速度慢,综合来看未来可适用于海量冷数据的长期归档和备份存储。DNA 存储技术距离工程应用仍然面临着数据持久性低(缺乏大规模工程验证)、存储成本高(8 个数量级的差距)、读写速度太慢(2 个数量级的差距)和对现代存储系统适配等多项挑战。在 DNA 存储的市场化道路中,DNA 存储领域资深学者 Yaniv Erlich 曾提到,DNA 存储的市场化可能不会面向个人用户,初期的使用者会是一些机构,主要用来存储那些冗长、重要的数据,如金融数据和档案资料等。未来 DNA 存储的重要研究方向如下:一是高稳定、易保存的 DNA 存储介质;二是自动化控制的 DNA 信息存储软硬件一体化系统;三是高通量、低成本的信息映射与管理技术;四是分子电路和数据调控;五是 DNA 存储的小型化、集成化;我们期望 DNA 存储领域能取得突破进入商业应用,并逐步弥补甚至取代当前的数据存储方式。使连接产生价值,用数据看见未来

370人已浏览 2022-08-08 121页 5星级


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有